전체 글(327)
-
36. Transformer Network
Encoding block : multi-head attention(multi-query self attention)으로 input(시퀀스)를 embedding. Decoding block : encoding에 있는 토큰을 하나씩 전달하면서 번역. - 이때 multi-head attention을 통해 token을 다시 word embedding으로 표현하게 되는데, key value는 embedding시 사용했던 weight를 사용. - 생성된 word embedding을 다시 vocabulary를 통해 word로 변환. - 생성된 output을 다시 input으로 제공하고, 단어 하나씩 생성하여 토큰이 생성될 때까지 반복. 문장 내의 위치를 나타내는 요소로 PE(Position Encoding)을 사용..
2023.10.24 -
35. Multi-Head Attention
즉 multi-head = multi-query. - 즉 여러 질문에 대한 답으로 word를 다양하게 embedding한 matrix라고 이해하면 된다. - 예를 들어 q1은 what is happening there, q2는 when? q3은 who? 등등. 여러 질문에 대한 답으로 word를 표현하게 된다.
2023.10.24 -
34. Self-Attention
query(질문)의 의미 : what is happening there? - A 을 생성하는데 각 word에 query를 날리는 것. - 즉 k은 person, k는 action 등등 A을 설명하기 위한 정보들이 나열된다. - 이때 목적지인 I'Afrique에 대해 visite이 가지는 중요성이 매우 커지고, 따라서 오른쪽 위 수식에 따라 softmax값은 파란색 부분이 가장 클 것으로 예상할 수 있다. **이 모든 정보들이 다시 각각 value와 곱해져서 sum되면 A가 만들어지는데 이로써 얻는점 - I'Afrique라는 단어가 단순히 고정된 word embedding vector가 아니라 다양한 정보를 포함한 embedding vector가 된다는 점. - 주변 query * key 값을 통해 I'A..
2023.10.24 -
33. Transformer Network Intuition
attention 개념을 이용하여 RNN과 CNN 특징들을 합치게 되는데, 다음 강의부터 attention에 대한 개념을 살펴보자.
2023.10.24 -
32. Trigger Word Detection 2023.10.22
-
31. Speech Recognition
CTC(Connectionist Temporal Classification) cost 따라서 공백을 기준으로 문자를 압축하여 결과를 생성한다.(띄어쓰기 문자와는 다름) -> ex) ttt는 t로 압축 - 예시를 보면 the q 가 생성되는 과정을 이해할 수 있다.
2023.10.22