Google ML Bootcamp/5. Sequence Models

31. Speech Recognition

코딩소비 2023. 10. 22. 16:27

음성 인식 시스템 : 주로 음소 단위로 제공되곤 했었다.

CTC(Connectionist Temporal Classification) cost

 

 

매 hz마다 측정을 하여 결과를 뽑아낸 후 split 과정을 진행한다.

따라서 공백을 기준으로 문자를 압축하여 결과를 생성한다.(띄어쓰기 문자와는 다름) -> ex) ttt는 t로 압축

- 예시를 보면 the q 가 생성되는 과정을 이해할 수 있다.