30. Fitting Batch Norm into a Neural Network

2023. 9. 12. 12:54Google ML Bootcamp/2. Improving Deep Neural Networks

이때 beta는 parameter. Adam에서 지정했던 hyperparameter beta와는 관계가 없다.

Z를 구한 후 noramlize 과정을 통해 Z틸다를 구하게 되는데, 그럼 Z를 구하는 과정에서 bias항은 의미가 없게된다.

- Z 틸다를 구하는 과정에서 Z-mean 을 통해 bias항은 제거되기 때문. 

- 따라서 bias 를 의미하는 변수는 사용하지 않아도 되며, 영구적으로 0으로 설정하는 방법도 고려해볼 수 있다.

 

bias = 0이 된 후 Z틸다는 다음과 같이 표기할 수 있다.

따라서 bias는 beta가 대체하는 것을 볼 수 있으며, beta는 moving (축에서 y축이동) 혹은 bias에 영향을 주는 파라미터라고 볼 수 있다.

- Gamma, beta 모두 (n[l],1) 형태의 shape을 가진다.

- Z.shape : (n[l],1) 이기 때문

예시는 Gradient Descent 기준으로 작성. parameter update 부분

parameter update시 Momentum, RMSprop, Adam의 수식으로 대체하여 사용하여도 무방하다. 

- 어떤 optimizer를 사용할 것 인지에 따라 달라진다.