6. Language Model and Sequence Generation
2023. 9. 25. 17:48ㆍGoogle ML Bootcamp/5. Sequence Models
문장이 주어졌을 때 해당 문장의 등장 확률을 이야기해주는 것.
- 이는 곧 각 단어의 확률을 multiply 한 것과 같다.
1. 토큰화(Tokenization)
- 단어 하나하나를 토큰으로 mapping.(=단어를 벡터화)
- 이때 EOS 토큰은 문장의 끝을 의미한다 (해당 강의에서는 사용하지 않을 예정)
- if vocabulary에 없는 단어라면 어떻게 토큰화하나? -> <UNK> unkown 토큰으로 토큰화 진행.
각 단어가 등장할 확률을 알려주는것이 언어모델.
RNN의 경우 이전 단어들이 주어졌을 때, 다음 단어가 등장할 확률을 전체 vocabulary에 대해 알려준다. 가장 큰 값을 가지는 것으로 예측을 시도.
'Google ML Bootcamp > 5. Sequence Models' 카테고리의 다른 글
8. Vanishing Gradients with RNNs (0) | 2023.09.25 |
---|---|
7. Sampling Novel Sequences (0) | 2023.09.25 |
5. Different Types of RNNs (0) | 2023.09.25 |
4. Backpropagation Through (0) | 2023.09.25 |
3. Recurrent Neural Network (0) | 2023.09.25 |