응용/서비스입문
Speech-to-Text
음성 인식 · Speech-to-Text / STT
사람의 음성을 자동으로 텍스트로 변환하는 AI 기술
상세 설명
Speech-to-Text (음성 인식)
"말을 글로" 바꾸는 기술입니다.
주요 모델
- Whisper (OpenAI): 오픈소스, 다국어, 가장 많이 사용
- Google Speech-to-Text: 클라우드 API
- Clova Speech (네이버): 한국어 특화
발전
- 전통: HMM + 음향 모델
- 딥러닝: End-to-End 학습
- Transformer: Whisper로 다국어 통합
활용
음성 비서(시리, 빅스비), 자막 생성, 회의록 작성, 접근성(청각 장애)
태그
#음성#변환#접근성