36. Transformer Network
2023. 10. 24. 15:18ㆍGoogle ML Bootcamp/5. Sequence Models
Encoding block : multi-head attention(multi-query self attention)으로 input(시퀀스)를 embedding.
Decoding block : encoding에 있는 토큰을 하나씩 전달하면서 번역.
- 이때 multi-head attention을 통해 token을 다시 word embedding으로 표현하게 되는데, key value는 embedding시 사용했던 weight를 사용.
- 생성된 word embedding을 다시 vocabulary를 통해 word로 변환.
- 생성된 output을 다시 input으로 제공하고, 단어 하나씩 생성하여 <EOS>토큰이 생성될 때까지 반복.
문장 내의 위치를 나타내는 요소로 PE(Position Encoding)을 사용.
- sin, cos function을 통해 표현하곤 한다.
빠른 학습을 위해 Add & Norm layer도 존재하는데 batch normalization이랑 비슷하다고 생각하면 된다.
- 해당 강의에서는 차이점을 기억할 필요는 없다.
최종 layer에는 linear, softmax layer가 있다.
- 단어 1개를 출력하기 위한 output layer.
'Google ML Bootcamp > 5. Sequence Models' 카테고리의 다른 글
35. Multi-Head Attention (0) | 2023.10.24 |
---|---|
34. Self-Attention (0) | 2023.10.24 |
33. Transformer Network Intuition (0) | 2023.10.24 |
32. Trigger Word Detection (0) | 2023.10.22 |
31. Speech Recognition (1) | 2023.10.22 |