이 누리집은 대한민국 공식 전자정부 누리집입니다.

[주간 OSS 동향리포트] 학습에 사용된 데이터, 코드, 모델 구성 요소 모두 공개된 한국 오픈소스 AI 모델이 등장

2025.10.21

10월 3주의 국내외 오픈소스SW 관련 동향을 모아 정리하였습니다.

자세한 기사 내용은 아래 기사 내용 중 굵게 표시된 제목을 클릭하시면 보실 수 있습니다.

 

가중치만 공개하는 일부 모델과 달리 모델 전체를 투명하게 공개한 국내 기업과 기관들이 자유롭게 활용할 수 있는 한국 AI 모델이 등장했습니다.

KAIST 문화기술대학원 교수 연구진은 오픈소스 플랫폼 허깅페이스에 거대언어모델(LLM) ‘KORMo-10B’을 공개했습니다. 이 모델은 학습 데이터부터 코드, 중간 모델 등 개발 전 과정을 모두 공개했는데, 연구진은 비영어권 최초의 완전한 오픈소스 LLM으로 공익적 활용을 목표로 했다고 밝혔습니다.

 

한국어와 영어를 지원하는 KORMo는 약 108억 파라미터 크기의 모델로, 모델 사전 학습 단계부터 자체 개발되었으며, 주요 벤치마크에서 카카오의 ‘카나나-1.5 8B’, 메타의 ‘라마-3.1 8B’ 모델과 유사한 수준을 기록하였습니다.

연구진은 모델에 활용된 한국어 데이터의 68.74%가량을 합성 데이터로 제작해 사전 학습에 투입했으며, 한국어 데이터 부족문제에 기여하기 위해 합성 데이터를 포함해 모델에 활용한 사전학습 데이터까지 모두 공개하였습니다.

이 모델에 관련된 정보는 아래 링크에서 확인 가능합니다.

 

- Technical Report: Arxiv

- Technical Report(Slide-Korean) : 한국어 요약 PPT

-  Hugging Face: Model Download

-  GitHub Repository: Training and Inference Code

-  Tutorial:Instruction Tuning over google colab, Youtube Tutorial

[참고기사]

 

메타, 오픈소스 데이터 압축 프레임워크 공개했다(테크레시피)

메타가 빠른 동작 속도를 유지하면서도 높은 압축률을 실현한 압축 프레임워크인 OpenZL을 발표했다. 특정 포맷에 최적화된 전용 압축 프로그램을 구축하고 이를 활용해 일반적인 데이터 압축 도구로는 실현할 수 없는 수준의 성능을 발휘한다고 밝혔다. OpenZL은 구조화된 데이터에 대해 무손실 압축을 제공하며 전용 압축 도구에 필적하는 성능을 실현할 수 있다는 게 특징이다.

 

센티언트, 세계 최초 ‘커뮤니티 기반 오픈 AGI’ 구축(헤럴드경제)

글로벌 오픈소스 인공지능 프로젝트 Sentient(센티언트)가 세계 최초로 커뮤니티 기반 오픈 AGI(범용 인공지능) 개발을 공식화했다.  Sentient는 ‘AGI는 인류 전체의 지식과 협력으로 만들어져야 하며, 소수의 기업이 통제해서는 안 된다’는 철학 아래 설립된 프로젝트다.

‘인류가 직접 소유하고, 함께 발전시키는 개방형 AGI 생태계’를 목표로 출범된 Sentient는 현재 한국 시장을 차세대 핵심 거점으로 선정하고, 현지 파트너십 구축과 오피스 설립을 포함한 아시아 지역 확장 전략을 본격 추진 중이다.

 

- Open UP -

댓글 0

첫 댓글을 작성해보세요!

댓글 작성

댓글을 작성하려면 게시글 작성 시 입력한 이메일과 패스워드를 입력해주세요.