Google ML Bootcamp/5. Sequence Models(36)
-
18. Word2Vec
skip gram 문제점 : 계산 속도 - 매번 softmax 시 vocabulary size 만큼 계산을 수행하여 각각 word가 등장할 확률을 계산해야하기 때문. - hierarchical softmax를 사용하면 되는데..... 다음 강의에서 더 좋은걸 설명해주겠다. how to sample the context C?
2023.09.27 -
17. Learning Word Embeddings
word embedding matrix로 부터 각 단어의 featurized vector(300 features)를 얻고, 이를 Input으로 하는 마지막 layer를 거쳐 마지막 softmax(vocabulary size)를 통해 next word prediction을 수행한다. - 이때 next word prediction 시 앞의 몇 개의 단어를 참고할 건지는 hyperparameter로 설정 가능. - 6개의 단어를 참고하여 juice 를 예측하려면 300 feature를 가친 6개의 단어를 참고하기 때문에 마지막 layer input size는 1800.
2023.09.27 -
16. Embedding Matrix
word embedding matrix는 결국 vocabulary에 있는 각각 word를 featureized vector로 표현할걸 모아놓은 것.
2023.09.27 -
15. Properties of Word Embeddings
이때 featureized vector representation에서는 벡터끼리의 빼기를 통해 구분짓는 요소를 알 수 있고, 그렇게 만들어진 벡터끼리의 유사도를 통해 king과 queen 또한 gender가 구분짓는 요소이며 man과 woman을 구분짓는 요소와 같음을 알 수 있다. 물론 cosine, distance 모두 작을수록 유사성이 높은거다.
2023.09.27 -
14. Using Word Embeddings
두리안과 경작자라는 표현은 오렌지, 농부에 비해 쓰이는 빈도수가 적은 단어이다. - 우리는 인터넷에서 많은 텍스트 문장을 word embedding 학습데이터로 얻을 수 있는데, 그렇다면 두리안이 오렌지와 비슷하다는 사실을 알 수 있고 두번째 문장에서 두리안은 과일이라고 알아낼 수 있게 transfer learning을 고려해볼 수 있다.
2023.09.27 -
13. Word Representation
두 단어의 연관성을 따질 수 없다. - 두 vector의 연관성을 따지기 위해 내적을 해보면 0이기 때문에. vector의 각 차원은 하나의 feature와 얼마나 연관성이 있는지를 나타내는 것. - 이를 시각화해서 확인하기 위해 2D 로 나타낼 때 사용하는 알고리즘 : t-SNE - 어떤 vector를 다른 차원 상에 위치시키는 것을 embedding 이라고 부른다. - 따라서 이건 word embedding.
2023.09.27