25. Beam Search

코딩소비 2023. 10. 22. 14:39

step 1: input 시퀀스로 vocabulary 중 확률이 높은 것을 3개(bean width)만큼 메모리에 저장 - greedy와 차이점.

step 2: 각 경우의 수(bean width)에 대해 그 다음에 올 단어에 대한 확률(pair)를 vocabulary에 대해 모두 구함.

이때 bean width=3 이므로 3가지 경우의 수에 대해 각각 vocabulary에 대해 pair 확률을 구하게 되고, 전체 3만개(3가지 경우의 수 * vocabulary size)에 대해 확률이 높은 순으로 bean width 만큼 메모리에 저장하고 step3으로 이동.

- 예시로는 in september, jane is, jain visits이 가장 확률이 높은 3가지이다.

- 물론 각 경우의 수에 대해 네트워크 모델은 복사본 형태로 여러개 존재하는 형태이다.

step3 : <EOS> 토큰을 만날 때 까지 step2를 반복해서 다음 단어를 계속 찾아간다.

** Bean width=1이라면 결국 greedy search와 동일해진다.