도전 프로젝트
Contents
4.3. 도전 프로젝트¶
이 프로젝트의 목표는 CSV와 TSV 파일을 다루는 데 필요한 기본적인 데이터 조작 및 분석 기술을 배우는 것입니다. Pandas 라이브러리를 사용하여 데이터를 로드하고, 정제하고, 분석하며, 시각화하는 과정을 통해 실습해 봅니다.
여러분은 프로젝트를 통해 CSV와 TSV 파일을 다루는 기본적인 데이터 조작 및 분석 기술을 익힐 수 있습니다.
참고 코드 없이 프로젝트에 도전해 보세요 ^^.
직접 고민하고 검색하는 과정에서 많은 것을 배울 수 있습니다!
너무 어렵다면 참고 코드 여기를 클릭해 주세요.
4.3.1. 데이터 파일 준비¶
두 개의 파일을 준비합니다: employees.csv
와 sales.tsv
.
employees.csv
파일에는 직원들의 정보가 포함되어 있습니다.
sales.tsv
파일에는 직원별 판매 실적 데이터가 포함되어 있습니다.
employees.csv
파일 구조
EmployeeID |
Name |
Age |
Department |
JobTitle |
Country |
---|---|---|---|---|---|
1 |
John |
28 |
Sales |
Salesman |
USA |
2 |
Anna |
24 |
Marketing |
Marketer |
UK |
3 |
Peter |
35 |
IT |
Developer |
Germany |
4 |
Linda |
32 |
HR |
HR Manager |
Canada |
5 |
James |
22 |
Sales |
Salesman |
USA |
sales.tsv
파일 구조
EmployeeID |
Month |
SalesAmount |
---|---|---|
1 |
Jan |
5000 |
2 |
Jan |
3000 |
3 |
Jan |
7000 |
4 |
Jan |
2000 |
5 |
Jan |
4500 |
1 |
Feb |
5500 |
2 |
Feb |
3200 |
3 |
Feb |
7200 |
4 |
Feb |
2100 |
5 |
Feb |
4700 |
4.3.2. 데이터 탐색¶
Pandas를 사용하여
employees.csv
파일과sales.tsv
파일을 각각 읽어 데이터 프레임으로 변환합니다.각 데이터 프레임의 첫 몇 줄을 출력하여 데이터를 확인합니다.
각 데이터 프레임의 기본 정보(
describe()
메서드 활용)를 출력합니다.
4.3.3. 데이터 병합¶
EmployeeID
열을 기준으로 두 데이터 프레임을 병합하여 하나의 데이터 프레임으로 만듭니다.병합된 데이터 프레임의 첫 몇 줄을 출력하여 데이터를 확인합니다.
4.3.4. 데이터 분석¶
각 부서(
Department
)별 평균 연령을 계산하여 출력합니다.각 직업(
JobTitle
)별 평균 판매 금액을 계산하여 출력합니다.국가(
Country
)별 총 판매 금액을 계산하여 출력합니다.
4.3.5. 데이터 시각화¶
월별 총 판매 금액의 변화를 시각화하는 선 그래프를 그립니다.
부서별 평균 연령을 시각화하는 막대 그래프를 그립니다.
국가별 총 판매 금액을 시각화하는 원형 그래프를 그립니다.