6. Transformer
2023. 11. 21. 15:46ㆍNAVER AI Tech/Deep Learning
sequential modeling probelm
- input과 output 길이가 달라야할 수 있다. 예를 들면 한국어 - 영어 번역같은 경우.
- 심지어 input과 output시 적용될 domain이 다를 수 있음.
Transformer : stack of encoders and decoders
- encoder : self-attention layer + Feed Forward Neural Network layer

attention layer : output을 생성 시 하나의 input만 고려하는것이 아니라 sequence의 모든 input을 고려함.
- query, key, value parameter matrix를 사용.
1. input word(=query matrix를 이용하여 query로 변환됨)
2. key matrix를 이용하여 query와 sequence내 모든 단어와의 연관성을 파악함 = score로 도출
3. score normalize by key size
4. softmax(=sequence내 모든 단어와의 연관성 socre가 1차원 벡터로 주어짐)
5. softmax- value matrix 내적 곱.(=weight sum)
6. output 생성
단 sequence 내의 모든 단어와의 연관성을 고려해야하므로 sequence길이가 n이라면 n*n matrix가 필요하다(=메모리를 많이 잡아먹는다)
'NAVER AI Tech > Deep Learning' 카테고리의 다른 글
7. Generative Model. (0) | 2023.11.22 |
---|---|
5. RNN, LSTM, GRU (1) | 2023.11.21 |
5. CNN problems (0) | 2023.11.21 |
4. CNN (0) | 2023.11.21 |
3. Deep Learning 용어 정리 (1) | 2023.11.20 |