오픈소스 포털

[주간 OSS 동향리포트] 메타, 차세대 다국어 음성 인식 시스템 오픈소스 출시... 전 세계 1600개 이상의 언어 지원

2025.11.21

11월 3주의 국내외 오픈소스SW 관련 동향을 모아 정리하였습니다.

자세한 기사 내용은 아래 기사 내용 중 굵게 표시된 제목을 클릭하시면 보실 수 있습니다.

메타가 전 세계 1600개 이상의 언어를 지원하는 차세대 다국어 음성 인식(ASR) 시스템을 ‘옴니링구얼 ASR(Omnilingual ASR)’을 오픈소스로 공개했습니다.

옴니링구얼 ASR은 음성을 텍스트로 변환하는 통합 음성 인식 시스템으로 기본적으로 1600여개 언어를 학습했으며, 전 세계 거의 모든 구어를 포괄할 수 있는 유연한 구조를 갖췄습니다. 99개 언어를 지원하는 오픈AI의 오픈 소스 모델 `위스퍼(Whisper)`를 압도하는 수치입니다.

여기에 ‘제로샷 인컨텍스트 러닝(zero-shot in-context learning)’ 기능을 활용하면, 사용자가 새로운 언어의 음성-텍스트 짝 샘플 몇개만 제시하면, 모델이 해당 언어의 발화를 인식하고 전사할 수 있어 추가 학습 없이도 5400개 이상의 언어로 확장할 수 있다고 설명하였습니다. 이 기능은 소수 언어나 멸종 위기 언어를 다루는 지역 공동체에게 큰 도움이 될 전망으로 인공지능(AI) 음성 기술의 접근성과 활용성을 크게 확장했다고 평가했습니다.

이번 프로젝트는 메타가 아프리카·아시아 지역 연구자와 단체와 협력해 348개 저자원 언어 데이터를 수집하여, 3350시간 분량의 전 세계 언어를 포함한 ‘옴니링구얼 ASR 코퍼스(Corpus)’ 데이터셋 구축부터 시작되었습니다. 참여 기관에는 케냐 마세노대, 프리토리아대, 데이터사이언스 나이지리아 등이 포함됐으며, 모질라 커먼 보이스, 랜프리카, 나이자보이스 등의 단체도 데이터 수집에 참여하는 등 대규모로 진행되었습니다.

또한, 모델은 음성 인코더와 텍스트 디코더를 결합한 `엔코더-디코더` 구조를 기반으로, 3억~70억 매개변수 규모의 다양한 모델군으로 구성되었는데 자가학습형 wav2vec 2.0, CTC 기반 ASR 모델, 트랜스포머 기반 LLM-ASR 모델, 미학습 언어를 처리할 수 있는 LLM-ZeroShot ASR 모델 등이 포함됩니다.

또한 이 모델은 상업적 활용까지 자유로운 완전한 오픈소스로 홈페이지와 깃허브를 통해 공개했습니다.

[참고기사]

□ 소니 AI, 세계 최초 ‘인간 중심 AI 데이터셋’ 오픈소스로 공개(데일리비즈온 )

소니그룹(Sony Group)의 자회사 소니 AI(Sony AI)가 인공지능(AI) 개발의 윤리적 과제인 데이터 편향(bias) 문제 해결을 위해 세계 최초의 인간 중심 오픈소스 데이터셋 ‘FHIBE(Fair Human-Centric Image Benchmark)’를 공개했다. 이번 FHIBE는 AI 모델의 공정성과 편향성을 체계적으로 평가하기 위한 최초의 ‘동의 기반(consent-based)’ 글로벌 데이터셋으로, 데이터 수집 과정에서 참여자의 명시적 동의와 공정 보상이 이루어진 것이 특징이다.

□ 문샷, 오픈 소스 최강 ‘키미 K2 싱킹’ 출시..."300단계 연속 도구 호출"(AI타임스)

중국의 문샷 AI가 신형 추론 모델 ‘키미 K2 싱킹(Kimi K2 Thinking)’을 출시했다. 추론과 에이전트 성능을 테스트하는 벤치마크에서는 `GPT-5`를 포함한 글로벌 최상위 모델을 능가했다. 문샷은 6일(현지시간) 공식 플랫폼과 허깅페이스를 통해 K2 싱킹과 코드를 공개했다. 상업적 사용과 파생 모델 제작이 모두 허용되며, 월간 사용자 1억명 이상이거나 월 매출 2000만달러 이상인 서비스에서 사용하려면 ‘키미 K2’라는 명칭만 표시하면 된다.

- Open UP -

첫 댓글을 작성해보세요!

댓글 작성

댓글을 작성하려면 게시글 작성 시 입력한 이메일과 패스워드를 입력해주세요.