2023. 11. 20. 15:22ㆍNAVER AI Tech/Deep Learning
optimization : local optima이 가기 위한 최적화.
Generalization : 일반화. 즉 test set에 대해 성능이 좋나?
- underfitting : 애초에 학습이 별로 잘 되지 않음. 이유는 학습 데이터셋이 부족할 확률이 존재.
- overfitting : train set에 과적합. 해결 방법은 cross-validation
Bias , Variance
- Bias : 모델의 성능
- Variance : 일관적인가? 재현률.
Bootstrapping
- make random sampling with replacement (apply different any test or metric)
- bagging : 학습 데이터를 n개로 쪼개고 n개의 모델을 만든 후 앙상블(aggregating) 하는 관점.
- boosting : 하나의 데이터셋을 쪼개서 여러번 학습한다. 이때 학습 목표는 잘 못 맞추는 것들을 잘 맞추기 위함을 목표로.
Optimizer
Gradient Descent Method
- batch gradient descent(whole data)
- stochastic gradient descent(single data)
- min-batch gradient descent(subset data)
Momentum : 관성을 유지.
Nesterov Accelerate : momentum에 비해 한번 실험을 더 해보고 진행. momentum에 비해 발전
Adagrad : 이때까지 gradient가 얼마나 변해왔는지를 고려. 많이 변했었다면 이젠 적게 변화시키는 제어항을 추가.
Adadelta : Adagrad에 비해 이전 n개(=window size)만큼만 고려해서 Adagrad를 적용
RMSprop : Adadelta에 비해 stepsize항이 추가 된 것
Adam : momentum + RMSprop
Regularization
- Early Stopping
- Parameters Norm Penalty
- Data Augmentation
- Noise Robustness : 일부러 weight에 noise를 추가. 강건해지는 효과를 얻을 수 있음.
- Label Smoothing : 고양이 1, 강아지 0 을 사진을 섞어서 고양이 0.5, 강아지 0.5로 데이터를 추가하는 것. 생각보다 성능이 잘 올라간다
- Dropout : 일부 뉴런 비활성화
- Batch Normalization
'NAVER AI Tech > Deep Learning' 카테고리의 다른 글
5. RNN, LSTM, GRU (1) | 2023.11.21 |
---|---|
5. CNN problems (0) | 2023.11.21 |
4. CNN (0) | 2023.11.21 |
2. Neural Network 개념 및 코드 (1) | 2023.11.20 |
1. Deep Learning introduction (1) | 2023.11.20 |