Google ML Bootcamp(181)
-
12. Deep RNNs
각 layer에서 output을 얻는 과정은 보라색 수식과 같다.
2023.09.26 -
11. Bidirectional RNN(BRNN)
단점 : - 학습 하기 전에 전체 sequence 데이터가 필요하다 - 예를 들어 음성 인식 시스템을 빌드할 때 전체 문장이 필요하므로 사람이 말을 마칠 때 까지 기다려야한다.
2023.09.26 -
10. Long Short Term Memory
GRU. 비교적 최근에 나옴. LSTM에 비해 간단한게 특징(=더 큰 네트워크를 구축할 수 있다) 하지만 역사적으로 LSTM이 조금 더 일반적인 선택임은 여전함.
2023.09.26 -
9. Gate Recurrent Unit(GRU)
목적 : RNN이 가지고 있는 Gradient Vanishing 문제를 해결하기 위해. - 기존 Deep Neural Network 구조에서 Gradient Vanishing 문제를 해결하기 위해서는 weight random initization이 효과적이라고 설명한 바 있다. - 그러기 위해 도입한 Gate 개념과 C 변수에 대해 이해하자. The cat, which already ate ~ , was full - 해당 예시에서 was/were를 결정하기 위해서는 처음에 등장한 Cat 이라는 주어가 매우 중요하다. - 따라서 which, already, ate 등 시점의 C일때 감마 update 값은 0이라면(0에 근접한다면) was를 출력할 때 주어가 cat임을 참고할 수 있다. GRU, LSTM 목..
2023.09.26 -
8. Vanishing Gradients with RNNs
Vanishing Gradients 문제 말고도 Exploding Gradeints 문제도 다루어야하는데 이는 Nan 값과 같이 파라미터 값들이 폭발하는걸로 발견하기 쉽다.
2023.09.25 -
7. Sampling Novel Sequences
하지만 계산 비용이 너무 커서 잘 사용되지는 않는다. - 몇몇 어플리케이션에서는 이렇게 사용되기도 한다!
2023.09.25