전체 글(327)
-
30. Attention Model
이때 매 순간 계산비용이 반복적으로 수행되는데, 총 파라미터는 Tx * Ty개 이므로 꽤나 비용이 복잡하다.. 연습문제에서 구현을 연습해보도록 하자.
2023.10.22 -
29. Attention Model Intuition
Attention 알고리즘에 대한 대략적인 이해.
2023.10.22 -
28. Blue Score
기계번역에 대한 정확성은 어떻게 평가할까. 따라서 BLUE : max(number of represent word in reference) / number of represent word in output
2023.10.22 -
27. Error Analysis in Beam Search
case 1 : Y의 확률이 높다면? 시퀀스 모델은 정상이다. - 따라서 bean search 과정에서 Y에 해당하는 경우를 고려하지 못한 것 이므로 B를 키우는 방식으로 접근해볼 수 있다. case 2 : Y의 확률이 낮다면? 시퀀스 모델이 잘못되었다. - 따라서 normalize 방식이라던가, 혹은 RNN 구조 자체를 수정해보는 방식으로 진행해볼 수 있다. 단, 하나의 input 문장이 아닌 여러 문장을 통해 시퀀스 모델, 검색 알고리즘 중 어떤 부분에서 오류가 있었는지 분석하고 이후에 시퀀스 모델 혹은 검색 알고리즘을 수행하는 것이 올바른 수행과정이다.
2023.10.22 -
26. Refinements to Beam Search
따라서 곱해지는 숫자가 메모리에 저장하기에 너무 작은 값이 되기도 하는데, 이를 방지하기 위해서 log 변환을 취해준다. - 실제로 해당 방법이 잘 먹힌다. 이때 log로 변환하더라도 실제 p는 1보다 작기 때문에 log 함수에서도 음수의 결과값을 가르키게 되는데 이는 output의 시퀀스를 짧게 만드는 경향을 주기도 한다. - 따라서 해당 패널티를 줄이기 위해 우리는 normalize를 해줄 필요가 있다. - 최종 output으로는 각 bean width를 통해 생성된 문장 중 가장 확률이 높은 것을 선택하면 된다. - 그렇다면 bean width는 어떻게 정해야할까? if bean width large, 많은 선택지 고려 = 더 나은 결과 but 메모리 사용량이 많고 시간이 느려진다. 응용 프로그램에..
2023.10.22 -
25. Beam Search
이때 bean width=3 이므로 3가지 경우의 수에 대해 각각 vocabulary에 대해 pair 확률을 구하게 되고, 전체 3만개(3가지 경우의 수 * vocabulary size)에 대해 확률이 높은 순으로 bean width 만큼 메모리에 저장하고 step3으로 이동. - 예시로는 in september, jane is, jain visits이 가장 확률이 높은 3가지이다. - 물론 각 경우의 수에 대해 네트워크 모델은 복사본 형태로 여러개 존재하는 형태이다. ** Bean width=1이라면 결국 greedy search와 동일해진다.
2023.10.22