Google ML Bootcamp/5. Sequence Models
36. Transformer Network
코딩소비
2023. 10. 24. 15:18

Encoding block : multi-head attention(multi-query self attention)으로 input(시퀀스)를 embedding.
Decoding block : encoding에 있는 토큰을 하나씩 전달하면서 번역.
- 이때 multi-head attention을 통해 token을 다시 word embedding으로 표현하게 되는데, key value는 embedding시 사용했던 weight를 사용.
- 생성된 word embedding을 다시 vocabulary를 통해 word로 변환.
- 생성된 output을 다시 input으로 제공하고, 단어 하나씩 생성하여 <EOS>토큰이 생성될 때까지 반복.
문장 내의 위치를 나타내는 요소로 PE(Position Encoding)을 사용.
- sin, cos function을 통해 표현하곤 한다.
빠른 학습을 위해 Add & Norm layer도 존재하는데 batch normalization이랑 비슷하다고 생각하면 된다.
- 해당 강의에서는 차이점을 기억할 필요는 없다.
최종 layer에는 linear, softmax layer가 있다.
- 단어 1개를 출력하기 위한 output layer.
