본문 바로가기

IT관련 팁

오픈AI, 다국어 음성 인식 '위스퍼' 아키텍처 공개

728x90

 

'음성을 인식한다'는 문장에는 많은 의미가 들어가 있다. 사람 목소리를 알아듣고, 어떤 언어를 사용하는지 알 수 있어야 하고, 말하는 내용을 이해할 수 있어야 하며, 때로는 맥락까지 간파해야 한다. 결국 인공지능이 '음성을 인식할 수 있다'는 것은, 궁극적으로 '인간 수준'의 정확성과 완벽함을 가진 언어 능력을 가지고 있어야 한다.

 

오픈AI(OpeanAI)가 공개한 위스퍼(Whisper)는 바로 그런 수준의 음성 인식 수준을 갖는 인공지능을 개발하기 위한 오픈소스 기반 다국어 음성 인식 아키텍처다. 음성 인식을 통한 유용한 애플리케이션을 구축하고, 강력한 음성 처리를 위한 연구에 활용할 수 있는 모델 및 추론 코드를 깃허브(github)를 통해 공개했다. [……]

 

오픈AI의 위스퍼 블로그에는 이러한 위스퍼에 대한 아키텍처와 훈련 방법 등이 소개되어 있다. 특히 실제 웹에서 수집한 데이터를 영어로 전사(transcription)한 세 가지 샘플을 확인할 수 있다. 케이팝(K-Pop) 예제에서는 윤하의 오르트구름이라는 노래 가사를 영어로, 프렌치(French)는 프랑스어로 설명하는 위스퍼에 대한 설명을 영어로, 액센트는 억양이 강한 영어를 이해하고 영어 텍스트로 옮긴 내용을 확인할 수 있다.

 

위스퍼에 대한 자세한 자료는 블로그를 방문하면 무료로 다운로드 받을 수 있다. 블로그에는 PDF 형식의 논문(Paper), 오픈소스로 공개된 코드(CODE)와 모델 카드(MODEL CARD)는 깃허브 링크를 통해 확인할 수 있다. 위스퍼는 소음이 많이 들어간 다양한 광범위한 데이터를 통해 훈련된 만큼, 없는 단어를 전사하거나 언어에 따른 인식 편차 등 여러가지 오류가 있을 수 있다.

 

□ 본문 출처 : CIO Korea

   https://www.ciokorea.com/news/256384

 

□ GitHub / OpenAI 블로그 글

   https://github.com/openai/whisper

   Introducing Whisper - https://openai.com/blog/whisper/

 

 

 

그럼,

    공유합니다.

 

728x90