6. Transformer

2023. 11. 21. 15:46NAVER AI Tech/Deep Learning

sequential modeling probelm

- input과 output 길이가 달라야할 수 있다. 예를 들면 한국어 - 영어 번역같은 경우.

- 심지어 input과 output시 적용될 domain이 다를 수 있음.

 

Transformer : stack of encoders and decoders

- encoder : self-attention layer + Feed Forward Neural Network layer

encoder

attention layer : output을 생성 시 하나의 input만 고려하는것이 아니라 sequence의 모든 input을 고려함.

- query, key, value parameter matrix를 사용.

1. input word(=query matrix를 이용하여 query로 변환됨)

2. key matrix를 이용하여 query와 sequence내 모든 단어와의 연관성을 파악함 = score로 도출

3. score normalize by key size

4. softmax(=sequence내 모든 단어와의 연관성 socre가 1차원 벡터로 주어짐)

5. softmax- value matrix 내적 곱.(=weight sum)

6. output 생성

 

단 sequence 내의 모든 단어와의 연관성을 고려해야하므로 sequence길이가 n이라면 n*n matrix가 필요하다(=메모리를 많이 잡아먹는다)

 

 

'NAVER AI Tech > Deep Learning' 카테고리의 다른 글

7. Generative Model.  (0) 2023.11.22
5. RNN, LSTM, GRU  (1) 2023.11.21
5. CNN problems  (0) 2023.11.21
4. CNN  (0) 2023.11.21
3. Deep Learning 용어 정리  (1) 2023.11.20