2023. 9. 11. 13:53ㆍGoogle ML Bootcamp/2. Improving Deep Neural Networks
Momentum 말고도 RMSprop이라고 하는 알고리즘도 있다.
- 지금은 경사 하강법 대신 더 빠르고 성능이 좋은 알고리즘을 소개중!
Weight update 시 Momentum보다 정규화하는 과정이 추가됨.
우리가 원하는 것. W(수평방향)으로는 update 많이, b(수직방향)으로는 update 적게되길 원함.
- S(dW)에서 dW는 현재 값이 작을 것이다. 왜냐하면 지금으로도 충분하고, 기울기값이 작기 때문
- S(db)에서 db는 현재 값이 클 것이다. 왜냐하면 지금으로 부족하여 기울기값이 크기 때문
따라서 작은 값으로 나눌 경우 그 값 자체는 상대적으로 크게 되고, W는 update를 많이하게 된다.
정리
1. Batch Gradient Descent보다 mini-batch Gradient Descent가 훨씬 빠른 학습속도를 보였다.
2. mini-batch Gradient Descent에서 지수 평균 이동(Exponentially Weighted Moving Averages)개념을 도입한다. = Momentum
- Momentum이 학습시에 변화양에 있어 이전 변화량을 고려하므로 W,b 각각에 대해 변화율을 다르게 할 수 있었음.
- W -= learning rate * V(dW)
3. RMSprop
- weight update 시 V(dW)를 그대로 사용하기 보다 dW/np.sqrt(V(dW)**2)를 사용. V(dW)**2 = S(dW)
- W -= learning rate * (dW / np.sqrt(S(dW))를 사용.
- 왜? 기울기가 작을수록 변화량이 작음. 따라서 해당 W는 optimal point와 근접하고 많이 변화하는게 좋으므로 작은 값으로 나눠주게 됨.
'Google ML Bootcamp > 2. Improving Deep Neural Networks' 카테고리의 다른 글
24. Learning Rate Decay (0) | 2023.09.11 |
---|---|
23. Adam Optimization Algorithm (0) | 2023.09.11 |
21. Gradient Descent with Momentum (0) | 2023.09.11 |
20. Bias Correction in Exponentially Weighted Averages (0) | 2023.09.11 |
19. Understanding Exponentially Weighted Averages (0) | 2023.09.11 |