22. RMSprop

2023. 9. 11. 13:53Google ML Bootcamp/2. Improving Deep Neural Networks

Momentum 말고도 RMSprop이라고 하는 알고리즘도 있다.

- 지금은 경사 하강법 대신 더 빠르고 성능이 좋은 알고리즘을 소개중!

 

Weight update 시 Momentum보다 정규화하는 과정이 추가됨.

 

우리가 원하는 것. W(수평방향)으로는 update 많이, b(수직방향)으로는 update 적게되길 원함.

- S(dW)에서 dW는 현재 값이 작을 것이다. 왜냐하면 지금으로도 충분하고, 기울기값이 작기 때문

- S(db)에서 db는 현재 값이 클 것이다. 왜냐하면 지금으로 부족하여 기울기값이 크기 때문

 

따라서 작은 값으로 나눌 경우 그 값 자체는 상대적으로 크게 되고, W는 update를 많이하게 된다.

RMSprop의 경우 초록색 선과 같이 optimal point를 향해 학습하게 된다.

정리

1. Batch Gradient Descent보다 mini-batch Gradient Descent가 훨씬 빠른 학습속도를 보였다.

 

2. mini-batch Gradient Descent에서 지수 평균 이동(Exponentially Weighted Moving Averages)개념을 도입한다. = Momentum

- Momentum이 학습시에 변화양에 있어 이전 변화량을 고려하므로 W,b 각각에 대해 변화율을 다르게 할 수 있었음.

- W -= learning rate * V(dW)

 

3. RMSprop

- weight update 시 V(dW)를 그대로 사용하기 보다 dW/np.sqrt(V(dW)**2)를 사용. V(dW)**2 = S(dW)

- W -= learning rate * (dW / np.sqrt(S(dW))를 사용. 

- 왜? 기울기가 작을수록 변화량이 작음. 따라서 해당 W는 optimal point와 근접하고 많이 변화하는게 좋으므로 작은 값으로 나눠주게 됨.