본문 바로가기
1. SW 개발 & IT 트렌드

Python - pandas Dataframe file

by soosun 2020. 7. 23.

train.csv
0.06MB

ㅇ Data 출처: www.kaggle.com/hesh97/titanicdataset-traincsv/data- 연습용 파일

ㅇ DataFrame
- Series가 1차원이라면 DataFrame은 2차원으로 확대된 버젼(Excel spreadsheet 개념)
- 2차원이기 때문에 인덱스가 row, column로 구성됨(row 각 개별 데이터를, column 개별 속성을 의미)
- Data Analysis, Machine Learning에서 data 변형을 위해 가장 많이 사용

ㅇ dataframe slicing
- dataframe의 경우 기본적으로 [] 연산자가 column 선택에 사용
- 하지만, slicing은 row 레벨로 지원
- Seires의 경우 []로 row 선택이 가능하나, DataFrame의 경우는 기본적으로 column을 선택하도록 설계
- .loc, .iloc로 row 선택 가능

ㅇ NaN: Not a Number 숫자가 아닌 값(값이 없는 것)

 

 

 

댓글