4.3. 도전 프로젝트

이 프로젝트의 목표는 CSV와 TSV 파일을 다루는 데 필요한 기본적인 데이터 조작 및 분석 기술을 배우는 것입니다. Pandas 라이브러리를 사용하여 데이터를 로드하고, 정제하고, 분석하며, 시각화하는 과정을 통해 실습해 봅니다.

여러분은 프로젝트를 통해 CSV와 TSV 파일을 다루는 기본적인 데이터 조작 및 분석 기술을 익힐 수 있습니다.

참고 코드 없이 프로젝트에 도전해 보세요 ^^.

직접 고민하고 검색하는 과정에서 많은 것을 배울 수 있습니다!

너무 어렵다면 참고 코드 여기를 클릭해 주세요.

4.3.1. 데이터 파일 준비

두 개의 파일을 준비합니다: employees.csvsales.tsv.

  • employees.csv 다운로드 \(\to\) click me

  • sales.tsv 다운로드 \(\to\) click me

employees.csv 파일에는 직원들의 정보가 포함되어 있습니다.

sales.tsv 파일에는 직원별 판매 실적 데이터가 포함되어 있습니다.

employees.csv 파일 구조

EmployeeID

Name

Age

Department

JobTitle

Country

1

John

28

Sales

Salesman

USA

2

Anna

24

Marketing

Marketer

UK

3

Peter

35

IT

Developer

Germany

4

Linda

32

HR

HR Manager

Canada

5

James

22

Sales

Salesman

USA

sales.tsv 파일 구조

EmployeeID

Month

SalesAmount

1

Jan

5000

2

Jan

3000

3

Jan

7000

4

Jan

2000

5

Jan

4500

1

Feb

5500

2

Feb

3200

3

Feb

7200

4

Feb

2100

5

Feb

4700

4.3.2. 데이터 탐색

  • Pandas를 사용하여 employees.csv 파일과 sales.tsv 파일을 각각 읽어 데이터 프레임으로 변환합니다.

  • 각 데이터 프레임의 첫 몇 줄을 출력하여 데이터를 확인합니다.

  • 각 데이터 프레임의 기본 정보(describe() 메서드 활용)를 출력합니다.

4.3.3. 데이터 병합

  • EmployeeID 열을 기준으로 두 데이터 프레임을 병합하여 하나의 데이터 프레임으로 만듭니다.

  • 병합된 데이터 프레임의 첫 몇 줄을 출력하여 데이터를 확인합니다.

4.3.4. 데이터 분석

  • 각 부서(Department)별 평균 연령을 계산하여 출력합니다.

  • 각 직업(JobTitle)별 평균 판매 금액을 계산하여 출력합니다.

  • 국가(Country)별 총 판매 금액을 계산하여 출력합니다.

4.3.5. 데이터 시각화

  • 월별 총 판매 금액의 변화를 시각화하는 선 그래프를 그립니다.

  • 부서별 평균 연령을 시각화하는 막대 그래프를 그립니다.

  • 국가별 총 판매 금액을 시각화하는 원형 그래프를 그립니다.

4.3.6. 결과 보고서 작성

  • 데이터 로드, 병합, 분석 및 시각화 과정을 포함하는 보고서(파워포인트, .pptx)를 작성합니다.

  • 데이터 파일 준비 단계를 설명하는 슬라이드, 데이터 로드 탐색을 설명하는 슬라이드, \(\to\)\(\to\)

  • 보고서에는 각 단계의 코드와 결과가 포함되어야 합니다.

  • 시각화된 그래프도 보고서에 포함합니다.

  • 작성한 결과 보고서를 교수님이 요청하는 형태(과제 시스템 업로드, 이메일 제출 등)에 따라 제출합니다.

맨 위로 이동