2024. 4. 22. 00:06ㆍ기술 면접/AI(ML,DL)
LSA, LDA, SVD 란?
- LSA (Latent Semantic Analysis) : SVD를 단어-문서 행렬에 사용하여 LSA(잠재 의미 분석)을 수행.
- LDA(Latent Dirichlet Allocation) : 문서에 어떤 주제들이 존재하는지에 대한 확률 모형
**정리 : LSA,LDA 모두 토픽 모델링에 활용되는 기법이다.
- LSA : DTM을 truncated SVD를 통해 축소하여 축소 차원에서 근접 단어들을 토픽으로 묶는다.
- LDA : 단어가 특정 토픽에 존재할 확률과 문서에 특정 토픽이 존재할 확률을 결합확률로 추정하여 토픽을 추출한다
SVM(Support Vector Machine)이란?
- 마진 최대화. 즉 support vector를 통해 margin이 최대가 되는 HyperPlane(분류 경계선)을 찾는 Machine이다.
1. hard-margin : 선형분류로 오차를 허용하지 않는 분류
2. soft-margin : 비선형 분류로 어느정도 오분류를 허용하면서 비선형의 경계를 찾는 것
장점 : 과적합을 피하며 데이터 특성이 적어도 좋은 성능을 보인다.
단점 : 계산량이 많다.
Naive Bayes란?
- 확률 기반 분류 알고리즘으로 데이터의 각 특성(feature)는 서로 독립할 것이라는 Navie 특성을 전제로 새로운 input에 대하여 분류를 수행하는 알고리즘입니다.
- 조건부 확률에서 기반한 알고리즘으로 각 레이블에 속할 사후확률을 추정하여 가장 높은 확률 쪽으로 데이터를 분류하는 방식입니다.
Bagging과 Boosting의 차이
- Bagging : Boostrap + Aggregation
- Boostrap : subset을 boostrap이라고 함. 즉 원본 데이터셋에서 T개의 subset을 형성 후 Aggregation = 앙상블
- 이때 T개의 독립적인 모델을 형성 후 Aggregation(=voting) 진행.
- Boosting : train weak learner.
- 즉 매 iteration에서 boostrap을 추출할 때 이전에 못맞춘 class 데이터를 많이 보유하도록 추출.
- Bagging과 비교하여 T개의 독립적인 모델이 아니라 연속적인 모델이 지속적으로 학습되는 것에 차이가 있음
XGB 모델에 대한 설명
- GBM의 과적합 문제 해결(by similarity score) + 학습속도 개선(parallelism)
- similarity score : (잔차의 합)**2 / N(데이터 개수)
- 잔차의 합이 0에 가까워질수록 모델의 성능이 좋음.
- 모델을 생성할 때 similarity score를 활용하여 Similarity(parent) - Similarity(child) > threhold 일 때 분기 진행.
- 둘의 차이가 유의미할 때만 분기를 진행. 즉 overfitting 방지.
- parallelism : cache-aware block structure 사용
- CPU cache miss가 발생(=병목 현상) greedy search 속도 저하를 방지하기 위해 개별 thread마다 internal buffer 배정하는 구조
- 데이터 정렬 연산을 최소화하기 위해 block이라는 in-memory unit을 활용하여 연산 결과를 block 단위 재사용.
인공신경망이 가지는 일반적인 문제. 최근 딥러닝 계열의 혁신의 근간은 무엇이라고 생각하나요?
- Gradient Vanishing 문제. 활성화 함수를 sigmoid나 tanh를 활용하였을 때 gradient값이 back propagation이 진행될수록 0으로 수렴.
- 하드웨의 발전이 학습시간을 크게 단축시켜 주었고, ReLU 활성화 함수로 인해 Gradient Vanishing 문제를 해결하면서 레이어 수를 깊게 쌓을 수 있게 되었다고 생각합니다.
'기술 면접 > AI(ML,DL)' 카테고리의 다른 글
DL 기본 상식 2 (0) | 2024.04.22 |
---|---|
DL 기본 상식 (0) | 2024.04.22 |
ML 기본 상식 2 (0) | 2024.04.21 |
ML 기본 상식 (0) | 2024.04.16 |