14. Pandas

2023. 11. 8. 15:13NAVER AI Tech/Python & AI math

 

Series : Dataframe 중 하나의 Column에 해당하는 데이터 모음.

- series operation : index를 기준으로 연산수행. 겹치는 index가 없으면 NaN값 반환

- 이때 fill_value=0 이라는 parameter를 사용하게 되면 겹치는 index가 없는 쪽은 0이라고 가정하고 연산을 수행한다.

- Sereis + Dataframe operation : numpy이기 때문에 broadcasting이 일어나서 연산을 수행하게 된다.

- map 함수를 적용도 가능. df.sex.map({'male':0, 'female':1}) -> 성별 column의 값이 문자열에서 정수형으로 변환된다.

- replace 함수도 적용 가능. df.sex.replace({'male':0, 'female':1})

 

Dataframe.apply : map과 달리 모든 column에 대해서 function 적용.

- dataframe.info()

- dataframe.describe()

- df.column.unique()

- df.isnull().sum()

 

Groupby 연산 : split -> apply -> combine을 한큐에 실행한다고 보면 된다.

- df.groupby('Team')['Points'].sum()

- 'Team' column 기준으로 split

- split된 각각 dataframe에 'Points' column에 sum()을 적용

- 결과를 다시 combine

- grouped = df.groupby('team') 으로 split된 결과를 받을 수도 있다.

 

**내장함수 혹은 pandas 활용 함수등은 검색해서 편하게 사용합시다~

 

import pandas as pd

- 세계 공용어. 국룰

 

df = pd.read_csv(file_name) , pd.read_json(file_name) 등등 다 가능.

 

df.first_name -> 'first_name' column 값들을 추출 == 'first_name' Series 추출

- df['first_name'] 과 동일

 

df.loc[1] : 첫번째 행 값 출력

df.iloc[1] : 첫번째 행 값 출력

**차이점은 iloc은 index가 숫자가 아닐 때 숫자로 변환해서 알아듣는다. 그냥 같은놈임.

 

df.drop(column, axis=1)

- column 삭제

 

df.reset_index(inplace=True, drop=True)

- dataframe은 보통 original은 변화없이 변화가 적용된 copy를 return.

- inplace=True 시에 original dataframe 또한 변화가 적용됨.

 

 

'NAVER AI Tech > Python & AI math' 카테고리의 다른 글

16. Gradient Descent  (0) 2023.11.09
15. (Math) scalar, vector, matrix, tensor에 대한 정리  (0) 2023.11.09
13. Numpy  (0) 2023.11.08
12 (Python) Data Handling  (0) 2023.11.08
11. (Python) File, Exception, Log에 대해서...  (0) 2023.11.08