1. 판다스(pandas)란?
▶ 판다스는 파이썬에서 데이터 처리를 위한 라이브러리로 열과 행으로 되어있는 데이터를 효율적으로 가공할 수 있는 기능을 제공한다. 판다스는 넘파이를 기반으로 만들어졌지만 넘파이보다 훨씬 유연하게 데이터 핸들링이 가능하다는 점에서 인기있는 라이브러리이다.
2. 파일을 Data Frame으로 로딩하기
▶ 공공데이터포털, 오픈 API 등을 통해서 다양한 데이터를 구할 수가 있다. 이번 장에서는 캐글에 있는 타이타닉 탑승자 데이터 파일로 판다스를 활용해볼 것이다.
▶ 다음 링크로 들어가서 train.csv 파일을 다운받는다.
https://www.kaggle.com/c/titanic/data?select=train.csv
Titanic - Machine Learning from Disaster | Kaggle
www.kaggle.com
▶ csv 파일은 comma-separated values라는 의미로 콤마(,)를 기준으로 항목을 구분하는 데이터 파일형식을 뜻한다.
▶ train.csv를 열어보면 첫 줄에 파일의 칼럼명이 나열되어 있고 각 칼럼은 콤마(,)로 구분되어 있다.[PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked]
그리고 밑으로는 탑승자에 대한 정보들이 칼럼에 맞춰서 나열되어 있다.
▶ 판다스는 다양한 포맷으로 된 데이터를 DataFrame으로 로딩할 수 있는 API를 제공하고 있다. csv 파일이라면 read_csv(filepath_or_buffer, sep=',') 함수로 데이터를 읽어올 수 있다. 칼럼의 구분이 tab(\t)이라면 read_table()함수를 쓰면 된다. 혹은 read_csv('파일명', sep='\t')라고 sep 인자 값을 바꿔주면 read_table()과 똑같이 쓸 수 있다. 인자를 생략하면 sep=',' 즉 콤마를 할당하는 것과 같다. 파일 경로는 절대 경로로 입력하였다.
import pandas as pd #pandas
titanic_df = pd.read_csv(r'C:\Users\USER\Downloads\train.csv')
titanic_df
▶ 실행해보니 DataFrame 객체로 잘 만들어진 것을 확인할 수 있다. 맨 좌측에 객체의 index 값이 있는 것을 알 수 있다. DataFrame은 생성되는 순간 고유의 index 값을 가진다.
'인공지능 AI > 머신러닝' 카테고리의 다른 글
[머신러닝] 넘파이(Numpy) 패키지 (0) | 2022.12.02 |
---|