코딩소비

9. Gate Recurrent Unit(GRU)

목적 : RNN이 가지고 있는 Gradient Vanishing 문제를 해결하기 위해. - 기존 Deep Neural Network 구조에서 Gradient Vanishing 문제를 해결하기 위해서는 weight random initization이 효과적이라고 설명한 바 있다. - 그러기 위해 도입한 Gate 개념과 C 변수에 대해 이해하자. The cat, which already ate ~ , was full - 해당 예시에서 was/were를 결정하기 위해서는 처음에 등장한 Cat 이라는 주어가 매우 중요하다. - 따라서 which, already, ate 등 시점의 C일때 감마 update 값은 0이라면(0에 근접한다면) was를 출력할 때 주어가 cat임을 참고할 수 있다. GRU, LSTM 목..

2023.09.26

8. Vanishing Gradients with RNNs

Vanishing Gradients 문제 말고도 Exploding Gradeints 문제도 다루어야하는데 이는 Nan 값과 같이 파라미터 값들이 폭발하는걸로 발견하기 쉽다.

2023.09.25

7. Sampling Novel Sequences

하지만 계산 비용이 너무 커서 잘 사용되지는 않는다. - 몇몇 어플리케이션에서는 이렇게 사용되기도 한다!

2023.09.25

6. Language Model and Sequence Generation

문장이 주어졌을 때 해당 문장의 등장 확률을 이야기해주는 것. - 이는 곧 각 단어의 확률을 multiply 한 것과 같다. 1. 토큰화(Tokenization) - 단어 하나하나를 토큰으로 mapping.(=단어를 벡터화) - 이때 EOS 토큰은 문장의 끝을 의미한다 (해당 강의에서는 사용하지 않을 예정) - if vocabulary에 없는 단어라면 어떻게 토큰화하나? -> unkown 토큰으로 토큰화 진행. 각 단어가 등장할 확률을 알려주는것이 언어모델. RNN의 경우 이전 단어들이 주어졌을 때, 다음 단어가 등장할 확률을 전체 vocabulary에 대해 알려준다. 가장 큰 값을 가지는 것으로 예측을 시도.

2023.09.25

5. Different Types of RNNs

2023.09.25

4. Backpropagation Through

2023.09.25

코딩소비

코딩소비

태그

최근글

댓글

공지사항

아카이브

전체 글(327)

티스토리툴바