ML 기본 상식 3

ML 기본 상식 3

2024. 4. 22. 00:06ㆍ기술 면접/AI(ML,DL)

LSA, LDA, SVD 란?

- LSA (Latent Semantic Analysis) : SVD를 단어-문서 행렬에 사용하여 LSA(잠재 의미 분석)을 수행.

- LDA(Latent Dirichlet Allocation) : 문서에 어떤 주제들이 존재하는지에 대한 확률 모형

**정리 : LSA,LDA 모두 토픽 모델링에 활용되는 기법이다.

- LSA : DTM을 truncated SVD를 통해 축소하여 축소 차원에서 근접 단어들을 토픽으로 묶는다.

- LDA : 단어가 특정 토픽에 존재할 확률과 문서에 특정 토픽이 존재할 확률을 결합확률로 추정하여 토픽을 추출한다

SVM(Support Vector Machine)이란?

- 마진 최대화. 즉 support vector를 통해 margin이 최대가 되는 HyperPlane(분류 경계선)을 찾는 Machine이다.

1. hard-margin : 선형분류로 오차를 허용하지 않는 분류

2. soft-margin : 비선형 분류로 어느정도 오분류를 허용하면서 비선형의 경계를 찾는 것

장점 : 과적합을 피하며 데이터 특성이 적어도 좋은 성능을 보인다.

단점 : 계산량이 많다.

Naive Bayes란?

- 확률 기반 분류 알고리즘으로 데이터의 각 특성(feature)는 서로 독립할 것이라는 Navie 특성을 전제로 새로운 input에 대하여 분류를 수행하는 알고리즘입니다.

- 조건부 확률에서 기반한 알고리즘으로 각 레이블에 속할 사후확률을 추정하여 가장 높은 확률 쪽으로 데이터를 분류하는 방식입니다.

Bagging과 Boosting의 차이

- Bagging : Boostrap + Aggregation

- Boostrap : subset을 boostrap이라고 함. 즉 원본 데이터셋에서 T개의 subset을 형성 후 Aggregation = 앙상블

- 이때 T개의 독립적인 모델을 형성 후 Aggregation(=voting) 진행.

- Boosting : train weak learner.

- 즉 매 iteration에서 boostrap을 추출할 때 이전에 못맞춘 class 데이터를 많이 보유하도록 추출.

- Bagging과 비교하여 T개의 독립적인 모델이 아니라 연속적인 모델이 지속적으로 학습되는 것에 차이가 있음

XGB 모델에 대한 설명

- GBM의 과적합 문제 해결(by similarity score) + 학습속도 개선(parallelism)

- similarity score : (잔차의 합)**2 / N(데이터 개수)

- 잔차의 합이 0에 가까워질수록 모델의 성능이 좋음.

- 모델을 생성할 때 similarity score를 활용하여 Similarity(parent) - Similarity(child) > threhold 일 때 분기 진행.

- 둘의 차이가 유의미할 때만 분기를 진행. 즉 overfitting 방지.

- parallelism : cache-aware block structure 사용

- CPU cache miss가 발생(=병목 현상) greedy search 속도 저하를 방지하기 위해 개별 thread마다 internal buffer 배정하는 구조

- 데이터 정렬 연산을 최소화하기 위해 block이라는 in-memory unit을 활용하여 연산 결과를 block 단위 재사용.

인공신경망이 가지는 일반적인 문제. 최근 딥러닝 계열의 혁신의 근간은 무엇이라고 생각하나요?

- Gradient Vanishing 문제. 활성화 함수를 sigmoid나 tanh를 활용하였을 때 gradient값이 back propagation이 진행될수록 0으로 수렴.

- 하드웨의 발전이 학습시간을 크게 단축시켜 주었고, ReLU 활성화 함수로 인해 Gradient Vanishing 문제를 해결하면서 레이어 수를 깊게 쌓을 수 있게 되었다고 생각합니다.

'기술 면접 > AI(ML,DL)' 카테고리의 다른 글

DL 기본 상식 2 (0)	2024.04.22
DL 기본 상식 (0)	2024.04.22
ML 기본 상식 2 (0)	2024.04.21
ML 기본 상식 (0)	2024.04.16

코딩소비