ML 기본 상식 2

ML 기본 상식 2

2024. 4. 21. 13:16ㆍ기술 면접/AI(ML,DL)

Feature Vector란?

- 정형 데이터에서 row. 즉 데이터가 가지는 feature를 vector형태로 담은 것.

좋은 모델이란?

- 데이터에 알맞는 모델 크기로 추론시간이 빠르면서 정확도가 높은 모델이 좋은 모델입니다. 같은 성능이라면 모델의 크기가 작은 단순한 모델이 더 좋은 모델이라고 볼수도 있습니다.

Metric의 종류와 설명

- Regression 문제 : MSE, MAE가 대표적

- Classification 문제 : Accuracy, Recall, Precision, F1 score가 대표적

Accuracy, Recall, Precision, F1 score

- Accuracy(정확도) : 전체 정답 중 모델이 맞춘 비율

- Recall(재현율) : 실제 True인 것 중에서 모델이 True라고 한 비율

- Precision(정밀도) : 모델이 True라고 한 것 중에서 실제 True의 비율

- F1 score : Recall과 Precision의 조화평균. 데이터 label이 불균형 구조일 때 사용하는 평가 방법.

ROC와 AUC란?

- ROC : Fallout-Recall(x,y축) 변화를 시각화한 그래프

- Fallout? → FPR(False Positive Rate)으로 실제 False 중 모델이 True라고 분류하여 잘못 분류한 비율

- AUC(Area Under Curve) : ROC curve의 적분값. 즉 그래프 아래의 면적값을 의미. 1에 가까울 수록 좋은 것.

**즉 ROC는 Fall-out,Recall (x,y축)을 그래프로 나타낸 것.

왼쪽 모서리에 있을수록 Fall-out(잘못 분류)가 낮고 Recall(정답 분류)가 높아지므로 모델 성능이 좋은 것

차원의 저주란?

- feature가 학습 데이터 수 보다 많은 현상. 차원이 증가할수록 변수가 증가하고, 개별 차원 내에서 학습할 데이터 수가 적어짐

- 변수가 증가한다고 반드시 차원의 저주가 발생하는 것은 아니다. 관측치보다 변수 수가 많아지는 경우에 차원의 저주가 발생

같은 데이터에 대해 차원을 키울수록 데이터의 밀도가 낮아짐을 확인할 수 있다.

- 차원을 키울 때 빈 공간은 컴퓨터에서 0으로 채워지게 됨.

- 실제로 고차원 공간에서 데이터간의 거리는 멀리 떨어져있을텐데, 계산이 수행될 때는 0으로 수행되므로 위치를 추정하여 계산하는 외삽법(=보외법)을 사용하게 되는데 이러면 오버피팅이 발생할 가능성이 높다.

**차원의 저주 해결법 : 데이터 수집 or 차원 축소

차원 축소 기법에 대해 설명해주세요.

1. 변수 선택법 : 전진 선택법, 후진 소거법, 단계적선택법 등등

2. 피처 추출법 : PCA, Truncated SVD

PCA : 여러 변수 간 존재하는 상관관계 중 이를 대표하는 주성분을 추출하여 차원을 축소하는 기법

- 데이터를 축에 사영했을 때 가장 높은 분산을 가지는 데이터(=주성분)의 축을 찾아 해당 축으로 차원을 축소하는 것

- 사영했을 때 분산이 크다는 것은 원래의 데이터 분포를 잘 설명할 수 있음을 뜻함 = 정보의 손실 최소화

- 이때 주성분만 선택하는 행위로 인해 설명력이 낮은 칼럼들은 배제가 되기 때문에 노이즈 제거 기법이라고도 불림

Cross Validation이란?

- train set에 과적합을 방지하기 위해 K개로 데이터셋을 split하여 train/valid set을 구축하는 것

장점

1. 모든 데이터셋을 학습에 사용할 수 있다 & 모든 데이터셋을 평가에 활용할 수 있다.

2. 데이터 부족으로 인한 underfitting 방지 가능

3. 많은 데이터를 학습할 수 있으므로 정확도 향상 가능

단점

1. iteration 횟수에 따라 모델 학습/추론 시간이 오래걸림.

K-means와 KNN

- K-means : 군집화(Clustering). 즉 비지도 학습

- KNN : 분류(Classification). 즉 지도학습

K-means 작동방식

1. 데이터셋 중 K개를 랜덤으로 군집의 중심으로 설정

2. 모든 데이터별로 K개의 군집 중심 중 가장 가까운 군집으로 할당

3. 형성된 군집의 중심을 다시 계산

4. 중심이 변하지 않을 때 까지 1-3번을 반복

K-NN 작동방식

1. 이미 class가 정해진 데이터셋이 존재함.

2. New data가 주어졌을 때 가장 가까운 K개의 이웃을 관찰.

3. K개의 이웃 중 가장 많은 class로 new data를 할당시킴

'기술 면접 > AI(ML,DL)' 카테고리의 다른 글

DL 기본 상식 2 (0)	2024.04.22
DL 기본 상식 (0)	2024.04.22
ML 기본 상식 3 (1)	2024.04.22
ML 기본 상식 (0)	2024.04.16

코딩소비