24. Picking the Most Likely Sentence

2023. 10. 22. 14:04Google ML Bootcamp/5. Sequence Models

기존 언어모델과 시퀀스 모델의 차이점은 초기 input값(a0)에 있다.

기존 언어 모델에서는 a0(영벡터)가 초기 Input으로 주어진 반면, 기계 번역에서는 입력 문장이 encoding된 vector가 주어진다.

- 즉 수식으로 표현해보자면 x1 ~ xT (x는 영어단어)가 주어졌을 때, y1 ~ yT(y는 프랑스 단어)가 주어질 확률을 구하는 것이 된다.

- 따라서 조건부 언어 모델(=기계 번역)이라고 부른다.

 

당연히도 P(y1 ~ yT | x1 ~ xT)의 확률을 최대로 하는 문장(y1 ~ yT)를 구하려고 할 것이며, 이를 탐색하느 알고리즘을 빔 탐색(Beam Search) 알고리즘이라고 한다.

 

 

greedy search란 x가 주어졌을 때 가장 확률이 높은 y1을 탐색하고, 그 다음 높은 확률인 y2,y3 차례대로 선택한다.

우리가 원하는 것 : 각 단어별 확률의 최대가 아니라, 전체 시퀀스에 대하여 "동시 확률"을 극대화시키길 원한다.

- 즉 greedy search에는 동시확률의 개념이 들어가있지 않다는 것.

 

 

위 문장이 beam search, 아래 문장이 greedy search 예시라고 하자.

jane is 뒤에는 going이 올 확률이 visiting보다 높다. 따라서 greedy search는 going을 선택하겠지만, 전체 시퀀스 입장으로 봤을 때는 visiting으로 구성된 문장이 훨씬 간결하고 적합한 번역이라고 볼 수 있다.

'Google ML Bootcamp > 5. Sequence Models' 카테고리의 다른 글

26. Refinements to Beam Search  (0) 2023.10.22
25. Beam Search  (0) 2023.10.22
23. Basci Models  (0) 2023.10.22
22. Debiasing Word Embeddings  (0) 2023.09.27
21. Sentiment Classification  (0) 2023.09.27