전체 글(327)
-
21. Sentiment Classification
문제점 : 단어의 순서를 고려하지 못한다. - completely 'lacking' in good tast, good service, and good ambience. - 이때 good이 여러번 나와서 average 시 좋은 리뷰라고 예측할 수도 있다. solution : RNN 을 감성 분류기로 사용하는 것 - many-to-one 구조.
2023.09.27 -
20. GloVe Word Vectors
Notation - X(i,j) : i(target)가 j(context)와 함께 등장한 횟수. GloVe : np.dot( theta(T), e(j) ) - 우리가 설정한 feature가 행렬곱으로 생성된 matrix에서 무엇을 설명하는지 해석하기가 어렵다. - 하지만 이전에 vector끼리의 유사도를 계산하거나, loss를 계산하는 등 학습은 잘 이루어짐이 관찰됐다....
2023.09.27 -
19. Negative Sampling
target을 맞추는 학습을 하기 위해서는 연관성이 없는(target=0)인 데이터셋도 있어야한다 - 이게 negative sampling. 10,000(vocabulary size)에 대해 softmax 보다, 10,000에 대해 sigmoid(binary classification) 계산비용이 훨씬 싸다. -> 왜인진 모르겠음 - 그리고 k개의 negative sampling을 통해 10,000개에 대해 sigmoid하는 것이 아닌 k+1(k negative, 1 positive)개에 대해 sigmoid를 수행하면 된다. - 이때 매 학습 단계에서 k개의 neagtive sample은 vocabulary에서 무작위로 추출한다.
2023.09.27 -
18. Word2Vec
skip gram 문제점 : 계산 속도 - 매번 softmax 시 vocabulary size 만큼 계산을 수행하여 각각 word가 등장할 확률을 계산해야하기 때문. - hierarchical softmax를 사용하면 되는데..... 다음 강의에서 더 좋은걸 설명해주겠다. how to sample the context C?
2023.09.27 -
17. Learning Word Embeddings
word embedding matrix로 부터 각 단어의 featurized vector(300 features)를 얻고, 이를 Input으로 하는 마지막 layer를 거쳐 마지막 softmax(vocabulary size)를 통해 next word prediction을 수행한다. - 이때 next word prediction 시 앞의 몇 개의 단어를 참고할 건지는 hyperparameter로 설정 가능. - 6개의 단어를 참고하여 juice 를 예측하려면 300 feature를 가친 6개의 단어를 참고하기 때문에 마지막 layer input size는 1800.
2023.09.27 -
16. Embedding Matrix
word embedding matrix는 결국 vocabulary에 있는 각각 word를 featureized vector로 표현할걸 모아놓은 것.
2023.09.27