22. RMSprop

22. RMSprop

2023. 9. 11. 13:53ㆍGoogle ML Bootcamp/2. Improving Deep Neural Networks

Momentum 말고도 RMSprop이라고 하는 알고리즘도 있다.

- 지금은 경사 하강법 대신 더 빠르고 성능이 좋은 알고리즘을 소개중!

Weight update 시 Momentum보다 정규화하는 과정이 추가됨.

우리가 원하는 것. W(수평방향)으로는 update 많이, b(수직방향)으로는 update 적게되길 원함.

- S(dW)에서 dW는 현재 값이 작을 것이다. 왜냐하면 지금으로도 충분하고, 기울기값이 작기 때문

- S(db)에서 db는 현재 값이 클 것이다. 왜냐하면 지금으로 부족하여 기울기값이 크기 때문

따라서 작은 값으로 나눌 경우 그 값 자체는 상대적으로 크게 되고, W는 update를 많이하게 된다.

정리

1. Batch Gradient Descent보다 mini-batch Gradient Descent가 훨씬 빠른 학습속도를 보였다.

2. mini-batch Gradient Descent에서 지수 평균 이동(Exponentially Weighted Moving Averages)개념을 도입한다. = Momentum

- Momentum이 학습시에 변화양에 있어 이전 변화량을 고려하므로 W,b 각각에 대해 변화율을 다르게 할 수 있었음.

- W -= learning rate * V(dW)

3. RMSprop

- weight update 시 V(dW)를 그대로 사용하기 보다 dW/np.sqrt(V(dW)**2)를 사용. V(dW)**2 = S(dW)

- W -= learning rate * (dW / np.sqrt(S(dW))를 사용.

- 왜? 기울기가 작을수록 변화량이 작음. 따라서 해당 W는 optimal point와 근접하고 많이 변화하는게 좋으므로 작은 값으로 나눠주게 됨.

24. Learning Rate Decay (0)	2023.09.11
23. Adam Optimization Algorithm (0)	2023.09.11
21. Gradient Descent with Momentum (0)	2023.09.11
20. Bias Correction in Exponentially Weighted Averages (0)	2023.09.11
19. Understanding Exponentially Weighted Averages (0)	2023.09.11

코딩소비