ML 기본 상식 2

2024. 4. 21. 13:16기술 면접/AI(ML,DL)

Feature Vector란?

    - 정형 데이터에서 row. 즉 데이터가 가지는 feature를 vector형태로 담은 것.

 

좋은 모델이란?

    - 데이터에 알맞는 모델 크기로 추론시간이 빠르면서 정확도가 높은 모델이 좋은 모델입니다. 같은 성능이라면 모델의 크기가 작은 단순한 모델이 더 좋은 모델이라고 볼수도 있습니다.

 

 

Metric의 종류와 설명

    - Regression 문제 : MSE, MAE가 대표적

    - Classification 문제 : Accuracy, Recall, Precision, F1 score가 대표적

 

Accuracy, Recall, Precision, F1 score

    - Accuracy(정확도) : 전체 정답 중 모델이 맞춘 비율

    - Recall(재현율) : 실제 True인 것 중에서 모델이 True라고 한 비율

    - Precision(정밀도) : 모델이 True라고 한 것 중에서 실제 True의 비율

    - F1 score : Recall과 Precision의 조화평균. 데이터 label이 불균형 구조일 때 사용하는 평가 방법.

 

ROC와 AUC란?

    - ROC : Fallout-Recall(x,y축) 변화를 시각화한 그래프

         - Fallout? → FPR(False Positive Rate)으로 실제 False 중 모델이 True라고 분류하여 잘못 분류한 비율

    - AUC(Area Under Curve) : ROC curve의 적분값. 즉 그래프 아래의 면적값을 의미. 1에 가까울 수록 좋은 것.

 

**즉 ROC는 Fall-out,Recall (x,y축)을 그래프로 나타낸 것.

왼쪽 모서리에 있을수록 Fall-out(잘못 분류)가 낮고 Recall(정답 분류)가 높아지므로 모델 성능이 좋은 것

 

 

 

 

차원의 저주란?

    - feature가 학습 데이터 수 보다 많은 현상. 차원이 증가할수록 변수가 증가하고, 개별 차원 내에서 학습할 데이터 수가 적어짐

    - 변수가 증가한다고 반드시 차원의 저주가 발생하는 것은 아니다. 관측치보다 변수 수가 많아지는 경우에 차원의 저주가 발생

같은 데이터에 대해 차원을 키울수록 데이터의 밀도가 낮아짐을 확인할 수 있다.

    - 차원을 키울 때 빈 공간은 컴퓨터에서 0으로 채워지게 됨. 

    - 실제로 고차원 공간에서 데이터간의 거리는 멀리 떨어져있을텐데, 계산이 수행될 때는 0으로 수행되므로 위치를 추정하여 계산하는 외삽법(=보외법)을 사용하게 되는데 이러면 오버피팅이 발생할 가능성이 높다.

**차원의 저주 해결법 : 데이터 수집 or 차원 축소

 

차원 축소 기법에 대해 설명해주세요.

    1. 변수 선택법 : 전진 선택법, 후진 소거법, 단계적선택법 등등

    2. 피처 추출법 : PCA, Truncated SVD

 

PCA : 여러 변수 간 존재하는 상관관계 중 이를 대표하는 주성분을 추출하여 차원을 축소하는 기법

    - 데이터를 축에 사영했을 때 가장 높은 분산을 가지는 데이터(=주성분)의 축을 찾아 해당 축으로 차원을 축소하는 것

    - 사영했을 때 분산이 크다는 것은 원래의 데이터 분포를 잘 설명할 수 있음을 뜻함 = 정보의 손실 최소화

    - 이때 주성분만 선택하는 행위로 인해 설명력이 낮은 칼럼들은 배제가 되기 때문에 노이즈 제거 기법이라고도 불림

 

 

 

Cross Validation이란?

    - train set에 과적합을 방지하기 위해 K개로 데이터셋을 split하여 train/valid set을 구축하는 것

장점

    1. 모든 데이터셋을 학습에 사용할 수 있다 & 모든 데이터셋을 평가에 활용할 수 있다.

    2. 데이터 부족으로 인한 underfitting 방지 가능

    3. 많은 데이터를 학습할 수 있으므로 정확도 향상 가능

단점

    1. iteration 횟수에 따라 모델 학습/추론 시간이 오래걸림.

일반적으로 5-fold Cross Validation을 사용한다.

 

 

 

K-means와 KNN

    - K-means : 군집화(Clustering). 즉 비지도 학습

    - KNN : 분류(Classification). 즉 지도학습

 

K-means 작동방식

    1. 데이터셋 중 K개를 랜덤으로 군집의 중심으로 설정

    2. 모든 데이터별로 K개의 군집 중심 중 가장 가까운 군집으로 할당

    3. 형성된 군집의 중심을 다시 계산

    4. 중심이 변하지 않을 때 까지 1-3번을 반복

 

K-NN 작동방식

    1. 이미 class가 정해진 데이터셋이 존재함.

    2. New data가 주어졌을 때 가장 가까운 K개의 이웃을 관찰.

    3. K개의 이웃 중 가장 많은 class로 new data를 할당시킴

'기술 면접 > AI(ML,DL)' 카테고리의 다른 글

DL 기본 상식 2  (0) 2024.04.22
DL 기본 상식  (0) 2024.04.22
ML 기본 상식 3  (1) 2024.04.22
ML 기본 상식  (0) 2024.04.16