ㅇ Data 출처: www.kaggle.com/hesh97/titanicdataset-traincsv/data- 연습용 파일
ㅇ DataFrame
- Series가 1차원이라면 DataFrame은 2차원으로 확대된 버젼(Excel spreadsheet 개념)
- 2차원이기 때문에 인덱스가 row, column로 구성됨(row 각 개별 데이터를, column 개별 속성을 의미)
- Data Analysis, Machine Learning에서 data 변형을 위해 가장 많이 사용
ㅇ dataframe slicing
- dataframe의 경우 기본적으로 [] 연산자가 column 선택에 사용
- 하지만, slicing은 row 레벨로 지원
- Seires의 경우 []로 row 선택이 가능하나, DataFrame의 경우는 기본적으로 column을 선택하도록 설계
- .loc, .iloc로 row 선택 가능
ㅇ NaN: Not a Number 숫자가 아닌 값(값이 없는 것)
'1. SW 개발 & IT 트렌드' 카테고리의 다른 글
Gartner Hype Cycle, 2020 (0) | 2020.08.25 |
---|---|
AI 교육 싸이트 (0) | 2020.08.13 |
Python - matplotlib.pyplot.plot(*args, **kwargs) (0) | 2020.07.22 |
Python - linalg 서브모듈 함수(선형대수 연산) (0) | 2020.07.22 |
numpy 기본 함수(numpy documentation) (0) | 2020.07.20 |
댓글