'음성을 인식한다'는 문장에는 많은 의미가 들어가 있다. 사람 목소리를 알아듣고, 어떤 언어를 사용하는지 알 수 있어야 하고, 말하는 내용을 이해할 수 있어야 하며, 때로는 맥락까지 간파해야 한다. 결국 인공지능이 '음성을 인식할 수 있다'는 것은, 궁극적으로 '인간 수준'의 정확성과 완벽함을 가진 언어 능력을 가지고 있어야 한다.
오픈AI(OpeanAI)가 공개한 위스퍼(Whisper)는 바로 그런 수준의 음성 인식 수준을 갖는 인공지능을 개발하기 위한 오픈소스 기반 다국어 음성 인식 아키텍처다. 음성 인식을 통한 유용한 애플리케이션을 구축하고, 강력한 음성 처리를 위한 연구에 활용할 수 있는 모델 및 추론 코드를 깃허브(github)를 통해 공개했다. [……]
오픈AI의 위스퍼 블로그에는 이러한 위스퍼에 대한 아키텍처와 훈련 방법 등이 소개되어 있다. 특히 실제 웹에서 수집한 데이터를 영어로 전사(transcription)한 세 가지 샘플을 확인할 수 있다. 케이팝(K-Pop) 예제에서는 윤하의 오르트구름이라는 노래 가사를 영어로, 프렌치(French)는 프랑스어로 설명하는 위스퍼에 대한 설명을 영어로, 액센트는 억양이 강한 영어를 이해하고 영어 텍스트로 옮긴 내용을 확인할 수 있다.
위스퍼에 대한 자세한 자료는 블로그를 방문하면 무료로 다운로드 받을 수 있다. 블로그에는 PDF 형식의 논문(Paper), 오픈소스로 공개된 코드(CODE)와 모델 카드(MODEL CARD)는 깃허브 링크를 통해 확인할 수 있다. 위스퍼는 소음이 많이 들어간 다양한 광범위한 데이터를 통해 훈련된 만큼, 없는 단어를 전사하거나 언어에 따른 인식 편차 등 여러가지 오류가 있을 수 있다.
□ 본문 출처 : CIO Korea
https://www.ciokorea.com/news/256384
□ GitHub / OpenAI 블로그 글
https://github.com/openai/whisper
Introducing Whisper - https://openai.com/blog/whisper/
그럼,
공유합니다.
'IT관련 팁' 카테고리의 다른 글
오픈소스 개발자로 취업하는 방법 (0) | 2022.10.05 |
---|---|
느려터진 구형 저사양 노트북 되살리기! 크로미움 OS 설치로 웹서핑을 쾌적하게~ (0) | 2022.09.26 |
(해외) 안드로이드 구글 앱, 검색에 노출된 개인 신상 삭제하는 메뉴 추가 (0) | 2022.09.21 |
리누스 토발즈 : Rust 언어가 리눅스 커널 6.1에 들어갑니다 (0) | 2022.09.20 |
기부나 후원받을 수 있는 링크 (카카오, 토스, 바이미어커피) (0) | 2022.09.18 |