Google ML Bootcamp/5. Sequence Models(36)
-
24. Picking the Most Likely Sentence
기존 언어 모델에서는 a0(영벡터)가 초기 Input으로 주어진 반면, 기계 번역에서는 입력 문장이 encoding된 vector가 주어진다. - 즉 수식으로 표현해보자면 x1 ~ xT (x는 영어단어)가 주어졌을 때, y1 ~ yT(y는 프랑스 단어)가 주어질 확률을 구하는 것이 된다. - 따라서 조건부 언어 모델(=기계 번역)이라고 부른다. 당연히도 P(y1 ~ yT | x1 ~ xT)의 확률을 최대로 하는 문장(y1 ~ yT)를 구하려고 할 것이며, 이를 탐색하느 알고리즘을 빔 탐색(Beam Search) 알고리즘이라고 한다. 우리가 원하는 것 : 각 단어별 확률의 최대가 아니라, 전체 시퀀스에 대하여 "동시 확률"을 극대화시키길 원한다. - 즉 greedy search에는 동시확률의 개념이 들어가..
2023.10.22 -
23. Basci Models
기계번역을 예시로 basci 모델은 sequence to sequence model을 생각해볼 수 있다. 충분한 양의 영어와 프랑스어를 학습시킨 모델에서는 input 단어 1개당 output 단어 1개 구조가 아니라, many-to-many 구조로 문장 자체를 vector로 encoding하고 생성된 문장에 대한 vector에 대해 decoding을 수행함으로써 번역을 수행한다. - 이때 decode시 생성된 y1이 다시 y2를 생성하기 위한 input으로 제공되는게 포인트. - 기본적으로 RNN은 forget gate를 가지고 있으므로 여기에 전체 input 문장(vector)가 전달된다. - 실제로도 이게 꽤나 효과가 있다는 것이 포인트.
2023.10.22 -
22. Debiasing Word Embeddings
어떻게 해결할까? 1. 찾고자 하는 bias에 대해 방향성을 파악한다. 2. 모든 word에 대해서 정의를 살펴보고, bias를 제거한다 - 예를 들면 할머니, 할아버지에는 gender feature로 정의될 수 있지만 doctor의 경우 gender feature의 영향은 제거되길 원한다. 3. 평준화 진행. - doctor와 man, doctor와 woman의 거리는 같아야한다. 그래야 gender feature에 대해 영향을 같은 수준으로 받기 때문. - 거리가 같아야한다는거지 같은 위치에 자리해야한다는건 아님.
2023.09.27 -
21. Sentiment Classification
문제점 : 단어의 순서를 고려하지 못한다. - completely 'lacking' in good tast, good service, and good ambience. - 이때 good이 여러번 나와서 average 시 좋은 리뷰라고 예측할 수도 있다. solution : RNN 을 감성 분류기로 사용하는 것 - many-to-one 구조.
2023.09.27 -
20. GloVe Word Vectors
Notation - X(i,j) : i(target)가 j(context)와 함께 등장한 횟수. GloVe : np.dot( theta(T), e(j) ) - 우리가 설정한 feature가 행렬곱으로 생성된 matrix에서 무엇을 설명하는지 해석하기가 어렵다. - 하지만 이전에 vector끼리의 유사도를 계산하거나, loss를 계산하는 등 학습은 잘 이루어짐이 관찰됐다....
2023.09.27 -
19. Negative Sampling
target을 맞추는 학습을 하기 위해서는 연관성이 없는(target=0)인 데이터셋도 있어야한다 - 이게 negative sampling. 10,000(vocabulary size)에 대해 softmax 보다, 10,000에 대해 sigmoid(binary classification) 계산비용이 훨씬 싸다. -> 왜인진 모르겠음 - 그리고 k개의 negative sampling을 통해 10,000개에 대해 sigmoid하는 것이 아닌 k+1(k negative, 1 positive)개에 대해 sigmoid를 수행하면 된다. - 이때 매 학습 단계에서 k개의 neagtive sample은 vocabulary에서 무작위로 추출한다.
2023.09.27