Google ML Bootcamp(181)
-
31. Backpropagation Intuition (Optional)
**시간이 된다면 Logistic Regression : sigmoid 함수를 예시로 dz를 직접 구해보기** L : Logisitic Regression 라고 가정. da 란 dL/da , da/dz = g'(z) dz = dL / dz = dL/da * da/dz - da/dz = g'(z), dL/da = da - 따라서 dz = da * g'(z) - 수식을 정리하면 dz = a-y. (증명은 생략) 수식 정리한것일뿐. dw = 1/m * np.dot(dz, x) db = 1/m * np.sum(dz) 다음과 같은 두 개의 layer가 있을때는? dz[2] = a[2]-y (미분 연쇄법칙에 의해. 증명은 생략) dw[2] = 1/m * np.dot(dz[2], a[1].T) - 단일 layer에 ..
2023.09.09 -
30. Gradient Descent for Neural Networks
Gradient Descent -input : x.shape (nx,1) = n[0], n[1], n[2] -> input layer, hidden layer, output layer존재. -params : w[1], b[1], w[2], b[2] -cost function : J(w[1], b[1], w[2], b[2]) = 1/m * np.sum(y-y*) 1. y* 계산 2. dw, db 계산. 3. w[1], b[1], w[2], b[2] update 4. 1-3 과정 반복. dw[2]의 경우 input이 A[1]이므로 1/m * np.dot(dz[2], A[1].T) - 도함수이므로 의미? 해당 변수 dw[2]가 변했을 때 y*(A[2])에 영향을 미치는 정도 at A[1] = A[1]에서의 기울기
2023.09.09 -
29. Derivatives of Activation Functions
도함수 표현 방식. dg(z) / dz도 있지만 g'(z)라고도 표기한다. 1. sigmoid g(z) : 1 / (1+e**(-x)) - 도함수 g'(z) = g(z) * (1-g(z)) 2. tan h g(z) : e**z - e**(-z) / e**z + e**(-z) - 도함수 : 1 - (tan h)**2 -> 1 - a**2 3. ReLU g(z) : max(0,z) - 도함수 : {0 if z = 0.}
2023.09.09 -
28. Why do you need Non-Linear Activation Functions?
Linear Activation Function을 사용할 수 있는 곳은 output layer. - 단, 선형회귀 문제의 경우에만 가능. - 주택 값을 예측하는 등 output의 범위가 (-무한대, 무한대)일 경우에만 사용. - 비선형 함수의 경우 최대,최소값의 범위가 있으므로 부적절함. hidden layer에서 활성화함수를 사용하지 않는 이유? 깊은 레이어를 통과해봤자 결국 나오는건 직선이므로 아무리 깊게 쌓아도 의미가 없다. x앞에 존재하는 w1,w2의 상수 값이 미세하게 바뀔뿐 증명은 여기서 진행하지 않지만 선형 활성화 함수의 경우 layer 자체가 필요없이 머신러닝 분야에서만 사용하도록 한다.
2023.09.09 -
27. Activation Functions
1. sigmoid : Logisitc Regression에서 사용하던 활성화 함수 output (0,1) 2. tan h : output (-1,1) **중요 더이상 sigmoid는 활성화 함수로 사용하지 않음. tan h가 거의 모든 상황에서 잘 작동함.** - 예외 : 이진분류시에 output layer. - 결과가 0 또는 1이므로 sigmoid가 유효함. 3. ReLU : output [0,x] - 0인 시점에 미분이 안되지만 실제로 input이 완벽히 0일 확률은 극히 드물다. 또한 예외처리로 이때 기울기를 0또는 1로 설정할 수도 있음. - hidden layer 에 활성화 함수 무엇을 쓸지 모르겠다면 그냥 ReLU쓰면 된다. 요즘은 그게 합리적.
2023.09.09 -
26. Explanation for Vectorized Implementation
W의 row는 input(x)의 feature dim. column은 훈련 예제의 개수를 의미하므로 여러 훈련 세트에 대해 X를 벡터화 함으로써 Z[i]를 for문 없이 한번에 구할 수 있음을 증명할 수 있다.
2023.09.09