2024. 4. 21. 13:16ㆍ기술 면접/AI(ML,DL)
Feature Vector란?
- 정형 데이터에서 row. 즉 데이터가 가지는 feature를 vector형태로 담은 것.
좋은 모델이란?
- 데이터에 알맞는 모델 크기로 추론시간이 빠르면서 정확도가 높은 모델이 좋은 모델입니다. 같은 성능이라면 모델의 크기가 작은 단순한 모델이 더 좋은 모델이라고 볼수도 있습니다.
Metric의 종류와 설명
- Regression 문제 : MSE, MAE가 대표적
- Classification 문제 : Accuracy, Recall, Precision, F1 score가 대표적
Accuracy, Recall, Precision, F1 score
- Accuracy(정확도) : 전체 정답 중 모델이 맞춘 비율
- Recall(재현율) : 실제 True인 것 중에서 모델이 True라고 한 비율
- Precision(정밀도) : 모델이 True라고 한 것 중에서 실제 True의 비율
- F1 score : Recall과 Precision의 조화평균. 데이터 label이 불균형 구조일 때 사용하는 평가 방법.
ROC와 AUC란?
- ROC : Fallout-Recall(x,y축) 변화를 시각화한 그래프
- Fallout? → FPR(False Positive Rate)으로 실제 False 중 모델이 True라고 분류하여 잘못 분류한 비율
- AUC(Area Under Curve) : ROC curve의 적분값. 즉 그래프 아래의 면적값을 의미. 1에 가까울 수록 좋은 것.
**즉 ROC는 Fall-out,Recall (x,y축)을 그래프로 나타낸 것.
차원의 저주란?
- feature가 학습 데이터 수 보다 많은 현상. 차원이 증가할수록 변수가 증가하고, 개별 차원 내에서 학습할 데이터 수가 적어짐
- 변수가 증가한다고 반드시 차원의 저주가 발생하는 것은 아니다. 관측치보다 변수 수가 많아지는 경우에 차원의 저주가 발생
- 차원을 키울 때 빈 공간은 컴퓨터에서 0으로 채워지게 됨.
- 실제로 고차원 공간에서 데이터간의 거리는 멀리 떨어져있을텐데, 계산이 수행될 때는 0으로 수행되므로 위치를 추정하여 계산하는 외삽법(=보외법)을 사용하게 되는데 이러면 오버피팅이 발생할 가능성이 높다.
**차원의 저주 해결법 : 데이터 수집 or 차원 축소
차원 축소 기법에 대해 설명해주세요.
1. 변수 선택법 : 전진 선택법, 후진 소거법, 단계적선택법 등등
2. 피처 추출법 : PCA, Truncated SVD
PCA : 여러 변수 간 존재하는 상관관계 중 이를 대표하는 주성분을 추출하여 차원을 축소하는 기법
- 데이터를 축에 사영했을 때 가장 높은 분산을 가지는 데이터(=주성분)의 축을 찾아 해당 축으로 차원을 축소하는 것
- 사영했을 때 분산이 크다는 것은 원래의 데이터 분포를 잘 설명할 수 있음을 뜻함 = 정보의 손실 최소화
- 이때 주성분만 선택하는 행위로 인해 설명력이 낮은 칼럼들은 배제가 되기 때문에 노이즈 제거 기법이라고도 불림
Cross Validation이란?
- train set에 과적합을 방지하기 위해 K개로 데이터셋을 split하여 train/valid set을 구축하는 것
장점
1. 모든 데이터셋을 학습에 사용할 수 있다 & 모든 데이터셋을 평가에 활용할 수 있다.
2. 데이터 부족으로 인한 underfitting 방지 가능
3. 많은 데이터를 학습할 수 있으므로 정확도 향상 가능
단점
1. iteration 횟수에 따라 모델 학습/추론 시간이 오래걸림.
K-means와 KNN
- K-means : 군집화(Clustering). 즉 비지도 학습
- KNN : 분류(Classification). 즉 지도학습
K-means 작동방식
1. 데이터셋 중 K개를 랜덤으로 군집의 중심으로 설정
2. 모든 데이터별로 K개의 군집 중심 중 가장 가까운 군집으로 할당
3. 형성된 군집의 중심을 다시 계산
4. 중심이 변하지 않을 때 까지 1-3번을 반복
K-NN 작동방식
1. 이미 class가 정해진 데이터셋이 존재함.
2. New data가 주어졌을 때 가장 가까운 K개의 이웃을 관찰.
3. K개의 이웃 중 가장 많은 class로 new data를 할당시킴
'기술 면접 > AI(ML,DL)' 카테고리의 다른 글
DL 기본 상식 2 (0) | 2024.04.22 |
---|---|
DL 기본 상식 (0) | 2024.04.22 |
ML 기본 상식 3 (1) | 2024.04.22 |
ML 기본 상식 (0) | 2024.04.16 |