Google ML Bootcamp(181)
-
28. Hyper parameters Tuning in Practice: Pandas vs Caviar 2023.09.12
-
27. Using an Appropriate Scale to pick Hyper parameters
[0.0001, 1] 사이를 random sampling할 경우 대부분의 값은 [0.1,1]사이에 위치하게 된다. (왜?) - x축으로 선형으로 그려보자. 그리고 0.0001, 0.001, 0.01, 0.1, 1을 위치로 찍어보자. 이는 타당하지 않을 수 있으므로 log 변환을 해주는게 적절해보인다. - 파이썬으로 구현 시 정수 범위 내에서 random sampling후 지수로 설정하면 된다. beta : 이전 n개의 결과의 영향력을 유지. - if 0.999의 경우 이전 1000개, 0.9995의 경우 2000개. - if 0.9의 경우 이전 10개, 0.9005 경우 20개 - 즉 0.0005정도의 같은 값이 변화하더라도 0.9에서 변할때와 0.999에서 변할때의 영향력의 차이는 매우 크다. 따라서 ..
2023.09.12 -
26. Tuning Process
Hyper parameters 1. learning rate 2. beta (Adam : beta1, beta2) 3. epsilon 4. number of layers 5. number of hidden units 6. learning rate decay 7. mini-batch size which is the most important? - we don't know. Thus, try random value. (Don't use a grid) - if number of hyperparameter is small, grid is ok - but really high dimension(=number of hyperparameter is large), it's difficult to know what is..
2023.09.12 -
25. The Problem of Local Optima
사실 딥러닝 초반에 Local optimal point에 갇히게 되는 경우를 걱정하곤 했다. 하지만 20,000 차원의 input이 주어졌을 때, 왼쪽 그래프에서 optimal point란 모든 변수가 일정 구간에서 convex function 이여야하며 그때 기울기가 0인 지점인데 그럴 확률은 2**(-20000) ~= 0 이다. 따라서 optimal point보다는 saddle point(안장점)이라고 표현하곤 한다. - local optimal point가 발생할 확률은 0에 가까운데 그렇다면 뭐가 문제일까? The problem is plateaus!! - 미분이 오래동안 0에 가까운 영역을 의미. Wight 별 학습량을 다르게 하여 plateaus 구간을 빠르게 빠져나올 수 있도록 Momentu..
2023.09.11 -
24. Learning Rate Decay
epoch이 진행될수록 optimal point에 근접하게 되는데, learning rate를 낮추어 천천히 진행할수록 optimal point를 지나쳐 더 멀이지는걸 방지할 수 있다. learing rate = (1 / (1+decay rate * epoch_num)) * learning rate - epoch이 진행됨에 따라 learning rate의 계수는 1보다 점점 작아지게 되고 따라서 learnin rate 또한 점점 작아지게 된다. 정리 : Learning rate reducing이 필요한 이유 + 어떻게 하는지
2023.09.11 -
23. Adam Optimization Algorithm
Adam(Adaptive moment estimation) : Momentum + RMSprop - Momentum의 V(dW)와 같은 지수 평균 이동 기법 - RMSprop의 Gradient에 따른 변수 별 update 변화량 할당 두 가지 모두를 적용한 기법 Hyperparameter 1. learning rate : need to be turn 2. 베타1 (momentum) : 0.9 (dW) 3. 베타2 (RMSprop) : 0.999 (dW**2) 4. 엡실론 : 1e-8(성능에 영향을 거의 안미침. 그냥 사용해도 됨) 베타 1,2 또한 실무자들 사이에서 튜닝이 이루어지지 않음. 그냥 사용하도록
2023.09.11