본문 바로가기

인공지능 AI/머신러닝

[머신러닝] 판다스(pandas) 패키지

1. 판다스(pandas)란?

▶ 판다스는 파이썬에서 데이터 처리를 위한 라이브러리로 열과 행으로 되어있는 데이터를 효율적으로 가공할 수 있는 기능을 제공한다. 판다스는 넘파이를 기반으로 만들어졌지만 넘파이보다 훨씬 유연하게 데이터 핸들링이 가능하다는 점에서 인기있는 라이브러리이다.

 

2. 파일을 Data Frame으로 로딩하기

 공공데이터포털, 오픈 API 등을 통해서 다양한 데이터를 구할 수가 있다. 이번 장에서는 캐글에 있는 타이타닉 탑승자 데이터 파일로 판다스를 활용해볼 것이다.

 

 다음 링크로 들어가서 train.csv 파일을 다운받는다.

https://www.kaggle.com/c/titanic/data?select=train.csv

 

Titanic - Machine Learning from Disaster | Kaggle

 

www.kaggle.com

 csv 파일은 comma-separated values라는 의미로  콤마(,)를 기준으로 항목을 구분하는 데이터 파일형식을 뜻한다.

 train.csv를 열어보면 첫 줄에 파일의 칼럼명이 나열되어 있고 각 칼럼은 콤마(,)로 구분되어 있다.[PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked]

그리고 밑으로는 탑승자에 대한 정보들이 칼럼에 맞춰서 나열되어 있다.

 

 판다스는 다양한 포맷으로 된 데이터를 DataFrame으로 로딩할 수 있는 API를 제공하고 있다. csv 파일이라면 read_csv(filepath_or_buffer, sep=',') 함수로 데이터를 읽어올 수 있다. 칼럼의 구분이 tab(\t)이라면 read_table()함수를 쓰면 된다. 혹은 read_csv('파일명', sep='\t')라고 sep 인자 값을 바꿔주면 read_table()과 똑같이 쓸 수 있다. 인자를 생략하면 sep=',' 즉 콤마를 할당하는 것과 같다. 파일 경로는 절대 경로로 입력하였다. 

import pandas as pd #pandas

titanic_df = pd.read_csv(r'C:\Users\USER\Downloads\train.csv')
titanic_df

▶ 실행해보니 DataFrame 객체로 잘 만들어진 것을 확인할 수 있다. 맨 좌측에 객체의 index 값이 있는 것을 알 수 있다. DataFrame은 생성되는 순간 고유의 index 값을 가진다.

 

'인공지능 AI > 머신러닝' 카테고리의 다른 글

[머신러닝] 넘파이(Numpy) 패키지  (0) 2022.12.02