6. Transformer

6. Transformer

2023. 11. 21. 15:46ㆍNAVER AI Tech/Deep Learning

- input과 output 길이가 달라야할 수 있다. 예를 들면 한국어 - 영어 번역같은 경우.

- 심지어 input과 output시 적용될 domain이 다를 수 있음.

- encoder : self-attention layer + Feed Forward Neural Network layer

attention layer : output을 생성 시 하나의 input만 고려하는것이 아니라 sequence의 모든 input을 고려함.

- query, key, value parameter matrix를 사용.

1. input word(=query matrix를 이용하여 query로 변환됨)

2. key matrix를 이용하여 query와 sequence내 모든 단어와의 연관성을 파악함 = score로 도출

3. score normalize by key size

4. softmax(=sequence내 모든 단어와의 연관성 socre가 1차원 벡터로 주어짐)

5. softmax- value matrix 내적 곱.(=weight sum)

6. output 생성

단 sequence 내의 모든 단어와의 연관성을 고려해야하므로 sequence길이가 n이라면 n*n matrix가 필요하다(=메모리를 많이 잡아먹는다)

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

코딩소비