메타의 새로운 음성인식 AI 모델, 오픈 소스로 공개

[더테크=조재호 기자] 기존 음성인식 모델보다 10배 많은 언어를 지원하는 메타의 새로운 AI가 발표됐다. 메타는 언어 다양성 보존에 기여하기 위해 이번 AI 모델을 오픈 소스로 공개했다.

메타가 24일, 4000개 이상의 음성을 식별하고 1100개의 언어를 음성에서 텍스트 또는 텍스트에서 음성으로 변환하는 ‘대규모 다국어 음성인식(Massively Multilingual Speech, 이하 MMS)’ AI 모델을 오픈소스로 공개했다.

MMS 프로젝트는 음성 정보에 의존하는 사람들을 비롯해 많은 사람이 더 쉽게 정보에 접근하고 언어의 다양성을 보존하는 것을 목표로 한다. 현재 전 세계에서 사용하는 언어의 수는 7000개가 넘는 것으로 알려져 있는데 기존 음성 인식 모델은 최대 100여개의 언어만을 지원해 한계가 있었다.

메타의 MMS AI 모델은 음성↔텍스트 변환이 가능한 언어를 기존 100여개에서 1107개로 10배 이상 확대했고, 음성으로 식별할 수 있는 언어의 수도 기존 대비 40배가량 늘렸다. 단순히 지원 언어의 양만 늘어난 것도 아니다. MMS를 통해 훈련된 AI 모델은 기존 변환 모델보다 우수한 성능을 자랑한다.

분석 결과에 따르면 음성 변환 언어의 수를 61개에서 1107개로 18배 늘렸지만 오류율은 0.4% 증가했다. 이는 오픈 AI의 음성인식 모델 위스퍼(Whisper)와 비교해도 단어 오류율은 절반으로 줄이면서 11배 많은 언어를 처리할 수 있는 것으로 나타났다.

메타는 언어 다양성 보존에 기여하고, AI 생태계 전반의 발전과 책임 있는 개발을 위해 MMS 모델과 코드를 오픈소스로 공개한다는 방침이다. 또한 언어 지원 범위를 확대하고 방언 처리 문제 등을 위해서도 지속적으로 노력한다는 입장이다.

한편, 메타는 지난 17일 진행한 기자 간담회에서 AI는 메타의 제품과 서비스의 기반이자 핵심 기술이라는 입장을 밝혔다. 김진아 메타 코리아 대표는 “AI는 메타의 DNA라 할 수 있다”며 “AI 인프라에 투자를 지속했고 그렇게 만들어진 인프라에서 AI 모델을 고도화하는 중”이라고 말했다.

메타는 중장기적 비전인 메타버스 구축을 위해 AI에 대한 연구와 투자를 지속해왔다. 2006년 페이스북 뉴스피드 초창기부터 머신러닝과 AI 기술이 쓰였다. 메타는 디지털 마케팅 솔루션의 고도화 등 서비스 전방위적으로 AI 기술을 활용하고 있다고 설명했다.

관련해 생성형 AI에 쓰이는 대규모 언어 모델(LLM) ‘라마(LLaMA)’와 사진과 동영상에서 이미지를 분할할 수 있는 AI ‘샘(Segment Anything Model)’ 그리고 텍스트와 이미지, 오디오, 깊이, 열, 동작, 위치 등 6가지 정보를 동시에 묶어 학습할 수 있는 AI ‘이미지바인드(ImageBind)’ 등의 AI 모델을 오픈소스로 공개했다.

CATEGORY