전체 글(327)
-
9. Gate Recurrent Unit(GRU)
목적 : RNN이 가지고 있는 Gradient Vanishing 문제를 해결하기 위해. - 기존 Deep Neural Network 구조에서 Gradient Vanishing 문제를 해결하기 위해서는 weight random initization이 효과적이라고 설명한 바 있다. - 그러기 위해 도입한 Gate 개념과 C 변수에 대해 이해하자. The cat, which already ate ~ , was full - 해당 예시에서 was/were를 결정하기 위해서는 처음에 등장한 Cat 이라는 주어가 매우 중요하다. - 따라서 which, already, ate 등 시점의 C일때 감마 update 값은 0이라면(0에 근접한다면) was를 출력할 때 주어가 cat임을 참고할 수 있다. GRU, LSTM 목..
2023.09.26 -
8. Vanishing Gradients with RNNs
Vanishing Gradients 문제 말고도 Exploding Gradeints 문제도 다루어야하는데 이는 Nan 값과 같이 파라미터 값들이 폭발하는걸로 발견하기 쉽다.
2023.09.25 -
7. Sampling Novel Sequences
하지만 계산 비용이 너무 커서 잘 사용되지는 않는다. - 몇몇 어플리케이션에서는 이렇게 사용되기도 한다!
2023.09.25 -
6. Language Model and Sequence Generation
문장이 주어졌을 때 해당 문장의 등장 확률을 이야기해주는 것. - 이는 곧 각 단어의 확률을 multiply 한 것과 같다. 1. 토큰화(Tokenization) - 단어 하나하나를 토큰으로 mapping.(=단어를 벡터화) - 이때 EOS 토큰은 문장의 끝을 의미한다 (해당 강의에서는 사용하지 않을 예정) - if vocabulary에 없는 단어라면 어떻게 토큰화하나? -> unkown 토큰으로 토큰화 진행. 각 단어가 등장할 확률을 알려주는것이 언어모델. RNN의 경우 이전 단어들이 주어졌을 때, 다음 단어가 등장할 확률을 전체 vocabulary에 대해 알려준다. 가장 큰 값을 가지는 것으로 예측을 시도.
2023.09.25 -
5. Different Types of RNNs 2023.09.25
-
4. Backpropagation Through 2023.09.25