9. Gate Recurrent Unit(GRU)

2023. 9. 26. 13:56Google ML Bootcamp/5. Sequence Models

목적 : RNN이 가지고 있는 Gradient Vanishing 문제를 해결하기 위해.

- 기존 Deep Neural Network 구조에서 Gradient Vanishing 문제를 해결하기 위해서는 weight random initization이 효과적이라고 설명한 바 있다.

- 그러기 위해 도입한 Gate 개념과 C<t-1> 변수에 대해 이해하자.

 

보라색 부분이 C<t> 생성 시 C<t-1> 정보를 얼마나 기억할 것인가? 결정

The cat, which already ate ~ , was full

- 해당 예시에서 was/were를 결정하기 위해서는 처음에 등장한 Cat 이라는 주어가 매우 중요하다.

- 따라서 which, already, ate 등 시점의 C<t>일때 감마 update 값은 0이라면(0에 근접한다면) was를 출력할 때 주어가 cat임을 참고할 수 있다.

 

GRU, LSTM 목적:

- RNN의 Long Term dependency 문제를 해결하기 위해(Gradient Vanishing 문제에서 비롯된)

 

'Google ML Bootcamp > 5. Sequence Models' 카테고리의 다른 글

11. Bidirectional RNN(BRNN)  (0) 2023.09.26
10. Long Short Term Memory  (0) 2023.09.26
8. Vanishing Gradients with RNNs  (0) 2023.09.25
7. Sampling Novel Sequences  (0) 2023.09.25
6. Language Model and Sequence Generation  (0) 2023.09.25