이 누리집은 대한민국 공식 전자정부 누리집입니다.

[주간 OSS 동향리포트] 메타, 차세대 다국어 음성 인식 시스템 오픈소스 출시... 전 세계 1600개 이상의 언어 지원

2025.11.21

11월 3주의 국내외 오픈소스SW 관련 동향을 모아 정리하였습니다.

자세한 기사 내용은 아래 기사 내용 중 굵게 표시된 제목을 클릭하시면 보실 수 있습니다.

 

메타가 전 세계 1600개 이상의 언어를 지원하는 차세대 다국어 음성 인식(ASR) 시스템을  ‘옴니링구얼 ASR(Omnilingual ASR)’을 오픈소스로 공개했습니다.

옴니링구얼 ASR은 음성을 텍스트로 변환하는 통합 음성 인식 시스템으로 기본적으로 1600여개 언어를 학습했으며, 전 세계 거의 모든 구어를 포괄할 수 있는 유연한 구조를 갖췄습니다. 99개 언어를 지원하는 오픈AI의 오픈 소스 모델 `위스퍼(Whisper)`를 압도하는 수치입니다.

 

여기에 ‘제로샷 인컨텍스트 러닝(zero-shot in-context learning)’ 기능을 활용하면, 사용자가 새로운 언어의 음성-텍스트 짝 샘플 몇개만 제시하면, 모델이 해당 언어의 발화를 인식하고 전사할 수 있어 추가 학습 없이도 5400개 이상의 언어로 확장할 수 있다고 설명하였습니다.  이 기능은 소수 언어나 멸종 위기 언어를 다루는 지역 공동체에게 큰 도움이 될 전망으로 인공지능(AI) 음성 기술의 접근성과 활용성을 크게 확장했다고 평가했습니다.

 

이번 프로젝트는 메타가 아프리카·아시아 지역 연구자와 단체와 협력해 348개 저자원 언어 데이터를 수집하여, 3350시간 분량의 전 세계 언어를 포함한 ‘옴니링구얼 ASR 코퍼스(Corpus)’ 데이터셋 구축부터 시작되었습니다.  참여 기관에는 케냐 마세노대, 프리토리아대, 데이터사이언스 나이지리아 등이 포함됐으며, 모질라 커먼 보이스, 랜프리카, 나이자보이스 등의 단체도 데이터 수집에 참여하는 등 대규모로 진행되었습니다.

 

또한, 모델은 음성 인코더와 텍스트 디코더를 결합한 `엔코더-디코더` 구조를 기반으로, 3억~70억 매개변수 규모의 다양한 모델군으로 구성되었는데 자가학습형 wav2vec 2.0, CTC 기반 ASR 모델, 트랜스포머 기반 LLM-ASR 모델, 미학습 언어를 처리할 수 있는 LLM-ZeroShot ASR 모델 등이 포함됩니다.

또한 이 모델은 상업적 활용까지 자유로운 완전한 오픈소스로 홈페이지와 깃허브를 통해 공개했습니다.

[참고기사]

 

소니 AI, 세계 최초 ‘인간 중심 AI 데이터셋’ 오픈소스로 공개(데일리비즈온 )

소니그룹(Sony Group)의 자회사 소니 AI(Sony AI)가 인공지능(AI) 개발의 윤리적 과제인 데이터 편향(bias) 문제 해결을 위해 세계 최초의 인간 중심 오픈소스 데이터셋 ‘FHIBE(Fair Human-Centric Image Benchmark)’를 공개했다. 이번 FHIBE는 AI 모델의 공정성과 편향성을 체계적으로 평가하기 위한 최초의 ‘동의 기반(consent-based)’ 글로벌 데이터셋으로, 데이터 수집 과정에서 참여자의 명시적 동의와 공정 보상이 이루어진 것이 특징이다.

 

문샷, 오픈 소스 최강 ‘키미 K2 싱킹’ 출시..."300단계 연속 도구 호출"(AI타임스)

중국의 문샷 AI가 신형 추론 모델 ‘키미 K2 싱킹(Kimi K2 Thinking)’을 출시했다. 추론과 에이전트 성능을 테스트하는 벤치마크에서는 `GPT-5`를 포함한 글로벌 최상위 모델을 능가했다. 문샷은 6일(현지시간) 공식 플랫폼과 허깅페이스를 통해 K2 싱킹과 코드를 공개했다. 상업적 사용과 파생 모델 제작이 모두 허용되며, 월간 사용자 1억명 이상이거나 월 매출 2000만달러 이상인 서비스에서 사용하려면 ‘키미 K2’라는 명칭만 표시하면 된다.

 

- Open UP -

댓글 0

첫 댓글을 작성해보세요!

댓글 작성

댓글을 작성하려면 게시글 작성 시 입력한 이메일과 패스워드를 입력해주세요.