이 누리집은 대한민국 공식 전자정부 누리집입니다.

[4월 1주] 정부, 8월 '소버린 AI' 모델 오픈소스로 공개…'모두의 AI' 시대 가속화 외

2026.03.31

4월 1주 국내외 오픈소스SW 관련 동향을 모아 정리하였습니다.
자세한 내용은 기사 제목을 클릭하시면 보실 수 있습니다.


□ 정부, 8월 '소버린 AI' 모델 오픈소스로 공개…'모두의 AI' 시대 가속화
과학기술정보통신부는 오는 8월 독자 AI 파운데이션 모델(독파모)을 오픈소스로 전면 공개하며 '모두의 AI' 시대를 본격화할 계획이라고 밝혔습니다. 
모델 배포 방식은 세계 최대 오픈소스 플랫폼 허깅페이스 등에 올리는 것을 기본으로 하여 국내뿐 아니라 전 세계에서 내려받아 쓸 수 있도록 한다는 방침입니다.
현재 산업 전반에서 활용할 수 있도록 공개 범위를 설계 중으로 제조업 AI 전환(AX) 등 다양한 분야에 활용할 수 있도록 전 국민에 배포할 예정입니다.
단순 모델 개발을 넘어선 오픈소스화와 현장 적용을 앞세워 전 국민 AI 활용 인프라 토대를 마련하겠다는 구상입니다.
(참고뉴스) 
1. 정부, 소버린 AI 모델 8월 오픈소스로 푼다…'모두의 AI' 본격화(지디넷코리아) 


□ 한글과컴퓨터, '오픈데이터로더 PDF v2.0' 깃허브(GitHub) 오픈소스 트렌딩 1위 달성
한글과컴퓨터의 PDF 데이터 추출 오픈소스 프로젝트 '오픈데이터로더 PDF v2.0'이 깃허브에서 지난 3월 20일 기준 전체 개발 언어 트렌딩 1위를 달성했습니다. 오픈데이터로더 PDF v2.0은 3월 21일 하루 동안 1800개 이상의 깃허브 스타 수 성장을 기록했으며, 총 스타 수 7000개, 포크 수(오픈소스 리포지터리를 자신의 계정으로 복사해 독립적으로 활용하는 것)를 500개 이상 돌파했습니다.
* 깃허브 트렌딩은 전 세계 개발자들이 현재 가장 주목하는 오픈소스 프로젝트를 실시간으로 집계하는 지표입니다.
이 프로젝트는 복잡한 PDF 문서를 AI가 처리 가능한 텍스트, 표, 이미지 등으로 변환하는 기술로, AI 학습의 주요 병목 현상을 해결하는 데 기여합니다. 이번 v2.0에는 아파치 2.0 라이선스를 적용하여 상업적 활용이 자유로우며, 주요 AI 개발 프레임워크와의 연동을 확대하며 개방형 PDF 데이터 플랫폼으로 발전할 계획입니다. 
(참고뉴스) 
1. 한컴 오픈데이터로더 PDF v2.0, 오픈소스 트렌딩 1위…“출시 일주일만”(전자신문) 
2. 한컴 오픈데이터로더 PDF v2.0, 깃허브 전체 오픈소스 트렌딩 1위 달성(인공지능신문) 


□ 오픈소스 AI 도구 '라이트LLM(LiteLLM)' 악성코드 감염 
월 1억 회 이상 다운로드되는 인기 오픈소스 AI 도구인 라이트LLM(LiteLLM)이 공급망 공격으로 악성코드에 감염된 버전이 배포되어 전 세계 AI 생태계에 비상이 걸렸습니다.  라이트LLM은 AI 모델의 번역기 역할을 하는 오픈소스 파이썬 라이브러리입니다. 영향받은 라이트LLM 버전은 1.82.7과 1.82.8로, 데이터 수집과 유출을 가능하게 하는 악성코드가 포함된 것으로 나타났습니다.
이번 공격의 목표는 기업의 핵심 자산인 ‘자격 증명’ 탈취로 악성 페이로드는 감염된 환경에서 △SSH 개인 키 △클라우드 인증 정보 △쿠버네티스 시크릿 △환경 변수(.env) 파일 등을 수집해 공격자 서버로 전송합니다. 라이트LLM이 다양한 언어모델의 API를 통합 관리한다는 점을 악용해 기업 AI 인프라 전체의 접근 권한을 노린 것입니다. 이러한 민감한 정보 유출 위험을 야기할 수 있으므로 오픈소스 AI의 보안 취약성과 이에 대한 신속한 대응 및 기업들의 주의가 필요합니다. 
(참고뉴스)
1. “소프트웨어 호러 닥쳤다”…‘월 1억회 다운’ 오픈소스 AI 도구에 악성코드(매일경제) 
2.  ‘Lite LLM’ 공급망 공격 파장... 에이전틱 AI 생태계 ‘자격 증명’ 탈취 주의보(보안뉴스) 


□ 코히어, 한국어 지원하는 기업용 2B 오픈소스 음성 모델 출시
기업용 AI 전문 코히어가 자동 음성 인식(ASR) 모델 ‘트랜스크라이브(Transcribe)’를 오픈소스로 출시했습니다. 트랜스크라이브는 회의록 작성, 음성 분석, 고객 응대 자동화 등 다양한 업무에 활용할 수 있는 모델로, 20억 매개변수 규모로 설계돼 일반 GPU 환경에서도 구동이 가능하다. 또 영어, 한국어, 일본어, 중국어를 포함해 총 14개 언어를 지원해 실무 활용성을 높였습니다.
(참고뉴스) 
1. 코히어, 한국어 지원하는 기업용 2B 오픈소스 음성 모델 출시(AI타임스) 
2. 허깅페이스  CohereLabs/cohere-transcribe-03-2026 : https://huggingface.co/CohereLabs/cohere-transcribe-03-2026


- Open UP -

댓글 0

첫 댓글을 작성해보세요!

댓글 작성

댓글을 작성하려면 게시글 작성 시 입력한 이메일과 패스워드를 입력해주세요.