36. Transformer Network

2023. 10. 24. 15:18Google ML Bootcamp/5. Sequence Models

Transformer Network 구조 : Encoding block, Decoding block

 

Encoding block : multi-head attention(multi-query self attention)으로 input(시퀀스)를 embedding.

Decoding block : encoding에 있는 토큰을 하나씩 전달하면서 번역.

- 이때 multi-head attention을 통해 token을 다시 word embedding으로 표현하게 되는데, key value는 embedding시 사용했던 weight를 사용.

- 생성된 word embedding을 다시 vocabulary를 통해 word로 변환.

- 생성된 output을 다시 input으로 제공하고, 단어 하나씩 생성하여 <EOS>토큰이 생성될 때까지 반복.

 

 

문장 내의 위치를 나타내는 요소로 PE(Position Encoding)을 사용.

- sin, cos function을 통해 표현하곤 한다.

 

빠른 학습을 위해 Add & Norm layer도 존재하는데 batch normalization이랑 비슷하다고 생각하면 된다.

- 해당 강의에서는 차이점을 기억할 필요는 없다.

 

최종 layer에는 linear, softmax layer가 있다.

- 단어 1개를 출력하기 위한 output layer.

 

'Google ML Bootcamp > 5. Sequence Models' 카테고리의 다른 글

35. Multi-Head Attention  (0) 2023.10.24
34. Self-Attention  (0) 2023.10.24
33. Transformer Network Intuition  (0) 2023.10.24
32. Trigger Word Detection  (0) 2023.10.22
31. Speech Recognition  (1) 2023.10.22