2023. 11. 8. 15:13ㆍNAVER AI Tech/Python & AI math
Series : Dataframe 중 하나의 Column에 해당하는 데이터 모음.
- series operation : index를 기준으로 연산수행. 겹치는 index가 없으면 NaN값 반환
- 이때 fill_value=0 이라는 parameter를 사용하게 되면 겹치는 index가 없는 쪽은 0이라고 가정하고 연산을 수행한다.
- Sereis + Dataframe operation : numpy이기 때문에 broadcasting이 일어나서 연산을 수행하게 된다.
- map 함수를 적용도 가능. df.sex.map({'male':0, 'female':1}) -> 성별 column의 값이 문자열에서 정수형으로 변환된다.
- replace 함수도 적용 가능. df.sex.replace({'male':0, 'female':1})
Dataframe.apply : map과 달리 모든 column에 대해서 function 적용.
- dataframe.info()
- dataframe.describe()
- df.column.unique()
- df.isnull().sum()
Groupby 연산 : split -> apply -> combine을 한큐에 실행한다고 보면 된다.
- df.groupby('Team')['Points'].sum()
- 'Team' column 기준으로 split
- split된 각각 dataframe에 'Points' column에 sum()을 적용
- 결과를 다시 combine
- grouped = df.groupby('team') 으로 split된 결과를 받을 수도 있다.
**내장함수 혹은 pandas 활용 함수등은 검색해서 편하게 사용합시다~
import pandas as pd
- 세계 공용어. 국룰
df = pd.read_csv(file_name) , pd.read_json(file_name) 등등 다 가능.
df.first_name -> 'first_name' column 값들을 추출 == 'first_name' Series 추출
- df['first_name'] 과 동일
df.loc[1] : 첫번째 행 값 출력
df.iloc[1] : 첫번째 행 값 출력
**차이점은 iloc은 index가 숫자가 아닐 때 숫자로 변환해서 알아듣는다. 그냥 같은놈임.
df.drop(column, axis=1)
- column 삭제
df.reset_index(inplace=True, drop=True)
- dataframe은 보통 original은 변화없이 변화가 적용된 copy를 return.
- inplace=True 시에 original dataframe 또한 변화가 적용됨.
'NAVER AI Tech > Python & AI math' 카테고리의 다른 글
16. Gradient Descent (0) | 2023.11.09 |
---|---|
15. (Math) scalar, vector, matrix, tensor에 대한 정리 (0) | 2023.11.09 |
13. Numpy (0) | 2023.11.08 |
12 (Python) Data Handling (0) | 2023.11.08 |
11. (Python) File, Exception, Log에 대해서... (0) | 2023.11.08 |