2025.09.22
소버린 AI 발전의 핵심 기반, 오픈소스와 글로벌 협력
- Open UP -
리눅스 재단의 ‘소버린 AI의 현황’ 보고서에 따르면, 국가 및 조직은 소버린 AI를 중요한 전략적 핵심 과제로 인식하고 있으며, 대다수의 조직에서 맞춤형 AI 솔루션을 개발하고 있음
오픈소스는 소버린 AI 개발의 필수 또는 매우 중요(90%) 요소로 인식되며, 이 중 45%는 이를 필수적 요소로 응답, 이러한 오픈소스 선호는 지역 전반에 걸쳐 일관되게 나타남
오픈소스 AI의 맞춤화 역량이 소버린 AI의 핵심 수단으로 AI를 조직의 내부 데이터·인프라·업무 방식에 맞게, 조직의 상황과 필요에 맞도록 조정
다양한 이해관계자가 참여하는 개방적 체계는 투명성과 신뢰성을 확보하고, 국제 표준화와 상호운용성을 촉진하여 장기적으로 소버린 AI의 자율성과 개방성을 동시에 가능하게 함
글로벌 협력을 통해 단일 조직이나 국가가 감당하기 어려운 자원·데이터·전문성 등의 문제를 해결
소버린 AI의 실현을 위해 오픈소스를 기반으로 한 맞춤화 역량과 글로벌 협력을 통한 자율성과 개방성을 균형 있게 확보하는 것이 필요
최근 데이터 주권, 국가 안보, 경제 경쟁력, 규제 및 문화적 정합성 요구가 높아지면서 각국은 독자적인 AI 역량 확보를 전략적 우선순위로 삼고 있음
과거 외부 플랫폼과 서비스에 의존했던 패러다임에서 벗어나, 독립적이고 개방적인 AI 인프라와 거버넌스로 구축하려는 흐름으로 이어지고 있음
소버린 AI는 더이상 개념적 담론이 아니라, 실제로 국가와 조직이 전략적으로 채택하는 핵심 과제임
소버린 AI 정의 : 외부 의존도를 최소화하고 국가·조직이 시스템, 데이터, 의사결정 과정을 통제할 수 있도록 AI 역량을 개발하는 것
리눅스 재단의 ‘The State of Sovereign AI(소버린 AI의 현황)’ 보고서에 따르면, 응답자의 79%는 소버린 AI를 중요한 전략적 핵심 과제로 인식했으며, 82%의 조직이 맞춤형 AI 솔루션을 개발 중임
전략적 중요성은 국가 차원(66%)과 조직 차원(47%) 모두 중요하다고 인식
미국(86%), 유럽(83%), 아시아 태평양(79%)은 소버린 AI를 가치 있거나 전략적으로 중요 요소로 인식
AI 모델 맞춤화는 일반적으로 오픈소스 프레임워크·도구·파운데이션 모델 위에서 이루어지며, 이는 오픈소스 인프라가 기관이 AI를 직접 관리하고 통제할 수 있는 자율성을 확보하는데 중요한 역할을 하고 있음을 의미
본 월간브리핑은 이 보고서를 바탕으로 소버린 AI의 주요 동인과 전략적 가치를 분석하고, 소버린 AI의 현안과 거버넌스·협력 등 발전 방향에 대한 권고사항을 정리
소버린 AI를 이끄는 원동력
소버린 AI 채택을 이끄는 동인은 조직 차원의 운영적 요인과 국가·사회 차원의 전략적 요인으로 구분
운영적 요인
운영적 요인은 조직이 AI를 맞춤형으로 개발·활용하는 과정에서 발생하는 실무적 동기를 의미
조직들은 내부의 실무적 필요를 반영한 핵심 AI 시스템을 직접 관리하기 위해 맞춤형 AI 솔루션 개발을 확대하고 있으며, 이를 위한 기술 인프라와 전문 역량 구축의 중요성이 더욱 증가
AI 개발을 통해 확보된 역량은 한 번 구축되면 다양한 사용 사례, 시장, 미래 혁신 전반에 걸쳐 재활용될 수 있는 내재적 자산이 되므로 맞춤화 선호
응답자의 57%가 AI 역량과 지식재산권 통제를 맞춤화의 가장 주된 요인으로 선택
이러한 흐름은 AI를 단순한 생산성 도구가 아니라 핵심 전략 자산으로 인식함을 의미
[조직 차원의 운영적 맞춤화의 주요 요인]
| 순위 | 주요 요인 | 응답 비율 | 설명 |
|---|---|---|---|
| 1 | AI 역량 및 지식재산권(IP) 통제 | 57% | AI는 전략 자산으로 내재적 지식·지적 재산 창출, 제3자 솔루션 관련 IP 소송 등 법적 위험 완화 |
| 2 | 기성 솔루션이 충족 못하는 요구사항 대응 | 49% | 특수한 요구·규제·환경에 맞춤 필요 |
| 3 | 보안 및 주권 요건 충족 | 41% | 민감 데이터 보호 및 주권적 운영 보장 |
| 4 | 경쟁 우위 확보 | 37% | 시장 차별화와 장기적 경쟁력 강화 |
| 5 | 특정 임무/목표 달성 | 28% | 정책·산업별 특수 목적 충족 |
| 6 | AI 혜택의 공평한 접근 보장 | 25% | 사회적 불평등 완화, 포용적 접근 |
| 7 | 외부 AI 공급업체 의존 축소 | 24% | 공급망 리스크 및 벤더 종속 방지 |
전략적 요인
전략적 요인은 국가와 사회 차원에서 소버린 AI를 필요로 하는 근본적 동기를 의미
국가와 사회가 소버린 AI 전략을 추진하는 핵심 동력은 데이터 통제와 안보 확보이며, 동시에 경제 경쟁력 강화, 규제 준수, 문화적 정합성 확보도 중요한 요인으로 인식
즉, 소버린 AI는 데이터와 지적 재산의 외부 유출을 방지하고 국가 혁신 생태계를 강화하며, 자국 내 AI 제공자의 맞춤형 솔루션과 지역화를 통해 규제 준수와 문화적 정합성을 확보하는 전략적 동인으로 작용
[소버린 AI의 전략적 주요 요인]
| 순위 | 주요 요인 | 응답 비율 | 설명 |
|---|---|---|---|
| 1 | 데이터 주권 및 통제 | 72% | 데이터를 전략적 자산으로 인식하여 데이터 주권 확보, 민감 정보 등 외부 유출 및 오남용 방지 |
| 2 | 국가 안보 | 69% | 국외 AI 플랫폼 의존에 따른 지정학적 리스크 및 구조적 취약성 제거로 자국 모델의 안정적 운영 확보 가능 |
| 3 | 경제 경쟁력 | 48% | 인재 개발, 산업별 전문성 강화 등 국내 역량 구축 및 장기적인 자국의 AI 혁신 생태계 강화 |
| 4 | 규제 준수 | 44% | GDPR(EU 데이터보호규정), AI Act 등 지역 규제 충족 |
| 5 | 문화적 정합성 | 31% | 언어·가치·문화를 반영한 현지화된 AI 구축 |
오픈소스의 역할
소버린 AI에서 개방성의 측면에서 개방성의 세가지 기둥(오픈소스SW, 오픈 표준, 오픈 데이터)이 소버린 AI의 토대를 제공하며 그 중 오픈소스SW가 소버린 AI를 진전시키는 데 가장 중요한 수단으로 인식
오픈소스SW(81%)는 상용 솔루션과 달리, 내부 구조를 투명하게 확인·검증이 가능하고 특정 벤더에 의존하지 않고, AI 스택의 모든 구성 요소를 직접 조정 가능
오픈 표준(65%)은 소버린 AI 시스템의 기술 간 연계 용이성을 제공하며, 새로운 의존성이나 락인을 초래할 수 있는 독점적 프로토콜 회피 가능
오픈 데이터(65%)는 접근을 제한하거나, 편향을 도입하거나, 혁신을 제한할 수 있는 외부 기관이 통제하는 데이터셋에 의존하지 않도록 보장
[소버린 AI 발전을 위한 선호되는 개방형 접근법]
| 개방형 접근 방식 | 전체 응답 | 미국 | 유럽 | 아시아 태평양 |
|---|---|---|---|---|
| 오픈소스 SW | 81% | 72% | 89% | 86% |
| 오픈 표준 | 65% | 55% | 69% | 78% |
| 오픈 데이터 | 65% | 65% | 69% | 67% |
| 오픈 거버넌스 | 49% | 51% | 49% | 45% |
| 오픈 인프라 | 42% | 38% | 37% | 52% |
| 오픈 하드웨어 | 22% | 15% | 20% | 34% |
이러한 개방성 선호는 진정한 소버린 AI가 단순히 모델 통제를 넘어 전체 기술 스택과 데이터 파이프라인에 대한 자율성을 필요로 함을 반영
오픈소스는 소버린 AI 개발의 필수 또는 매우 중요(90%) 요소로 인식되며, 이 중 45%는 이를 필수적 요소로 응답, 이러한 오픈소스 선호는 지역 전반에 걸쳐 일관되게 나타남
![[소버린 AI 개발에서 오픈소스의 중요도]](https://www.oss.kr/storage/app/public/oss/images/2025_459/image01.png)
[소버린 AI 개발에서 오픈소스의 중요도]
실제 조직들은 소버린 AI 구현을 위해 AI 개발 프레임워크에 PyTorch, TensorFlow/Keras, Hugging Face Transformers, LangChain/LlamaIndex, AI 인프라 및 운영 도구에 Kubernetes, Docker/Containers, Apache Spark/Flink 등 오픈소스 기술을 채택
[조직들이 채택한 오픈소스 기술]
| 오픈소스 기술 | 응답 비율 |
|---|---|
| PyTorch | 71% |
| Kubernetes/K8s | 58% |
| TensorFlow/Keras | 55% |
| Hugging Face Transformers | 47% |
| LangChain/Llamalndex | 37% |
| Docker/Containers | 37% |
| Scikit-learn | 31% |
| Apache Spark/Flink | 28% |
| LLM 평가 프레임워크 (LM Evaluation Harness, lightEval, Inspect) | 24% |
| MLflow | 24% |
| 리눅스 재단 AI & Data 프로젝트 (ONNX, vLLM 포함) | 21% |
| Kubeflow | 17% |
| OpenStack | 13% |
| Airflow | 13% |
| Ray | 12% |
| JAX | 6% |
| DVC/Git LFS | 6% |
| Apache MXNet | 5% |
| 기타(직접 기입) | 3% |
| 해당 없음 | 1% |
투명성, 비용 절감, 벤더 종속 회피, 유연성/맞춤화 가능성 등 오픈소스의 다양한 요소들이 소버린 AI를 달성하는 데 매우 중요한 요소임
[소버린 AI 달성을 위한 오픈소스 측면의 중요도]
| 오픈소스 측면 | 매우 중요 | 다소 중요 | 중요하지 않음 |
|---|---|---|---|
| 모델 가중치 및 아키텍처 접근 | 84% | 15% | 1% |
| 코드 검사 및 수정 능력 | 79% | 19% | 3% |
| 학습 방법의 투명성 | 76% | 21% | 3% |
| 공급업체 종속으로부터의 자유 | 69% | 27% | 4% |
| 특정 사용 사례에 대한 미세 조정 능력 | 69% | 28% | 3% |
| 구현을 위한 커뮤니티 지원 | 56% | 41% | 3% |
| 배포 비용 절감 | 44% | 51% | 5% |
소버린 AI 달성을 위해 오픈소스의 역할 중 모델 가중치와 아키텍처 접근이 매우 중요(84%)하다고 인식
모델 가중치에 접근할 수 없다면, 조직들은 동작을 검증하거나, 취약점을 식별하거나, 시스템 무결성을 보장할 수 없음
오픈소스 AI의 맞춤화 역량이 소버린 AI의 핵심 수단으로 AI를 조직의 내부 데이터·인프라·업무 방식에 맞게 조정, 조직의 상황과 필요에 맞도록 조정
코드 열람·수정(79%), 학습방법 투명성(76%), 특정 사용 사례 미세조정(69%)도 중요 요소로 평가
대표적 오픈소스 AI의 맞춤화 형태는 독점 데이터 시스템과의 통합(53%), 도메인 특화지식 기반생성(48%), 맞춤형 보안/프라이버시 기능(48%), 맞춤형 UI/UX(35%), 특정 언어·방언 적응(33%), 특정 하드웨어 최적화(32%), 지역 규제 준수(25%) 등임
오픈소스의 주요 이점은 투명성·감사 가능성(69%), 보안·신뢰(60%)로 개방적 접근은 편향·결함·가정을 드러내고 감사 추적이 가능하게 하며 공동 검증과 커뮤니티 기반 신뢰를 형성하여 확산과 채택으로 이어짐
![[소버린 AI에 제공하는 오픈소스의 이점]](https://www.oss.kr/storage/app/public/oss/images/2025_459/image02.png)
[소버린 AI에 제공하는 오픈소스의 이점]
오픈소스 AI 채택 과정에서 해결해야 할 과제에는 데이터 품질 및 가용성 문제(44%)와 기술 전문성 부족(35%)을 핵심 장벽으로 지적
[오픈소스 AI 개발의 주요 장벽: 지역별 차이]
| 항목 | 종합 | 미국 | 유럽 | 아시아·태평양 |
|---|---|---|---|---|
| 데이터 품질·가용성 | 44% | 51% | 49% | 31% |
| 기술 전문성/역량 격차 | 35% | 38% | 27% | 41% |
| 보안 취약점 | 34% | 33% | 25% | 47% |
| 기존 시스템과의 통합 | 29% | 29% | 33% | 19% |
| 도구의 빠른 진화에 대응 | 29% | 25% | 31% | 28% |
| 규제 및 규제 요건 준수 | 27% | 22% | 37% | 22% |
| 유지보수 및 지원 문제 | 20% | 13% | 20% | 34% |
| 확장(스케일링) 과제 | 15% | 9% | 20% | 16% |
| 도전 과제 없음 | 3% | 4% | 2% | 3% |
고품질 데이터셋 확보와 숙련된 전문 인력 양성이 뒷받침되지 않을 경우, 오픈소스 프레임워크의 잠재력이 현장에서 충분히 발휘되지 못하며, 데이터의 편향·라벨 오류·노후화 등 품질 문제에도 직면
분산 학습 환경 구축과 모델 운영을 담당할 전문 인재의 부족은 오픈소스 기반 소버린 AI 개발의 안정적 추진을 저해하는 요인으로 작용
글로벌 협력 전략
다양한 이해관계자가 참여하는 개방적 체계는 투명성과 신뢰성을 확보하고, 국제 표준화와 상호운용성을 촉진하여 장기적으로 소버린 AI의 자율성과 개방성을 동시에 가능하게 함
글로벌 협력은 지정학적 장벽을 넘어 다양한 문화와 관점을 반영하여, 더 강력하고 신뢰할 수 있는 AI 시스템을 구축하는 토대가 됨
응답자의 94%는 오픈소스 AI 기술에 대한 글로벌 협력이 중요하다고 보며, 93%는 안전하고 문화적으로 정합된 소버린 AI 구축에 글로벌 협력을 필수적 요소로 인식하고 있음
또한, 글로벌 협력을 통해 단일 조직이나 국가가 감당하기 어려운 자원·데이터·전문성 등의 문제를 해결
주요 협력 영역으로는 파운데이션 모델(59%), 데이터셋(59%), 개발 도구 및 플랫폼(39%), 하드웨어/인프라(38%), 평가 프레임워크(36%)가 꼽힘
![[AI 스택 내 주요 글로벌 협력 영역]](https://www.oss.kr/storage/app/public/oss/images/2025_459/image03.png)
[AI 스택 내 주요 글로벌 협력 영역]
글로벌 협력 방식으로는 오픈소스 기여(59%), 공동 기술 표준 수립(45%), 책임 있는 AI 협력(45%), 공통 평가 기준 마련(40%)을 선택
협력을 가로막는 요인으로는 자원 제약(35%), 지식재산권 우려(34%), 지정학적 긴장(28%), 국가 안보(26%) 및 규제 제한(26%)을 지적
지역별로는 미국은 ‘지식재산권 우려(44%)’가 가장 높고, 유럽은 ‘자원 제약(40%)’과 ‘규제 제한(31%)’, 아시아는 ‘지정학적 긴장(36%)’과 ‘국가 안보 제한(30%)’이 상대적으로 높은 응답을 보임
이러한 글로벌 협력 논의는 궁극적으로 운영될 거버넌스 체계의 문제로 이어지며, 소버린 AI 개발을 지원하는 가장 효과적인 모델로는 커뮤니티 주도 오픈소스 거버넌스(43%)를 가장 많이 선택
그 외 공공-민간 파트너십(28%), 다자간 협정 및 표준(20%), 지역 동맹/프레임워크(5%)가 선택됨
국가 정부(66%)와 오픈소스 재단(60%)이 소버린 AI의 미래를 형성하는 핵심 이해관계자로 인식되고 있음
특히 오픈소스 재단은 유럽과 아시아 태평양 지역(67%)에서 높이 평가됨(미국의 경우 44% 선택)
정책 및 실행 권고
보고서는 소버린 AI 구축을 위해 다음과 같은 여섯 가지 권고를 제시
[오픈소스 AI 생태계 활성화를 위한 권고]
| 권고 과제 | 주요 내용 |
|---|---|
| 오픈소스 AI 인프라 투자 | 프레임워크, 모델, 도구의 채택과 기여 확대를 통해 소버린 AI 역량의 기반 마련 |
| 교육 통한 인재 양성 | AI 교육, 업스킬링, 전문 훈련 강화로 기술 전문성 부족 문제 해소 |
| 커뮤니티 주도 거버넌스 수립 | 상향식 협력 모델 구축, 오픈소스 재단 중심의 거버넌스 지원 |
| 공유 표준·프로토콜 개발 | 모델 평가, 데이터 공유, 보안 프레임워크 등 개방형 기술 표준 개발·확산 |
| 데이터 품질·가용성 개선 | 오픈 데이터 이니셔티브, 데이터 공유 컨소시엄, 협력적 주석 프로젝트 추진 |
| 전략적 국제 협력 강화 | 외교·정책 프레임워크를 통해 민간·학계·공공 인프라 간 글로벌 협력 확대 |
시사점
소버린 AI는 고립적 접근이 아닌, 협력을 통한 주권 확보 모델로 오픈소스와 글로벌 협력은 단순 기술 경로가 아니라 신뢰·투명성·안보·혁신을 동시에 충족하는 전략적 선택지임
정부는 규제와 인프라 측면에서 뒷받침하고, 민간과 오픈소스 커뮤니티가 함께하는 하이브리드 협력 모델을 구축 필요가 있음
고품질 데이터셋 확보와 전문 인력 양성은 단순 기술 문제가 아니라 국가 경쟁력으로 연결되는 핵심 과제로 정부·민간·오픈소스 커뮤니티의 협력을 통해 지속적으로 추진 필요
주목할 만한 월간 이슈(9월)
(LLM) 트릴리온랩스, '트리-70B' 오픈소스로 공개
트릴리온랩스는 매개변수 700억(70B) 규모의 LLM(대형언어모델) '트리(Tri)-70B'를 체크포인트와 함께 출시
최종 모델뿐 아니라, 학습 도중 생성된 중간 체크포인트까지 전면 공개
AI 모델 체크포인트를 공개하면 다른 개발자들이 모델을 처음부터 다시 학습할 필요 없이 바로 사용 가능하며, 모델의 학습 과정을 세밀하게 연구 가능하고, 효율적인 재학습 및 응용 연구를 수행할 수 있음
체크포인트까지 공개한 것은 국내에서 최초(글로벌 시장에서도 세 번째) 사례임
상업적 이용이 가능한 아파치 2.0 라이선스로 공개하였으며, 다국어 번역 특화 모델과 실시간 검색(Search) 특화 모델도 공개
(문서 처리) 한컴, PDF 추출 핵심 기술 글로벌 오픈소스로 공개
한글과컴퓨터, AI 학습 및 활용 과정에서 PDF 문서 데이터 처리 병목 현상을 해소할 핵심 기술 ‘오픈데이터로더 PDF(OpenDataLoader PDF)’을 오픈소스로 공개
PDF는 전 세계적으로 AI 학습에 가장 널리 사용되는 문서 포맷이지만, 복잡한 내부 구조 때문에 학습용 데이터 추출이 쉽지 않은 문제를 해결하기 위해 지난 7월 PDF 기술 전문 기업 듀얼랩과 업무협약(MOU)를 체결하고 오픈소스 프로젝트를 진행
공동 개발한 오픈데이터로더 PDF는 PDF 문서 내 텍스트, 표, 이미지, 레이아웃 정보를 높은 정확도와 빠른 성능으로 추출하며, AI 학습에 즉시 활용할 수 있는 정형화된 데이터(JSON, Markdown, HTML)로 변환
(위성) 텔레픽스, 위성정보 맞춤형 AI 검색모델 ‘픽시’ 오픈소스 공개
우주 인공지능 전문 텔레픽스, 우주 분야를 비롯한 전문 기술 영역에 특화된 AI 검색모델 ‘픽시’ 시리즈를 오픈소스로 공개
기존 범용 검색 모델로는 전문 용어나 문맥 이해에 한계가 있었고, 데이터설명 가능성이 불분명해 실제 현장에서 활용되기 어려워 항공우주, 위성, 국방 등 기술 문서에 특화된 자체 고성능 임베딩 모델을 직접 개발
픽시(PIXIE)는 대형언어모델(LLM)이 최종 답변을 생성하기 전, 기술 문서에서 정확한 정보를 찾아주는 AI 검색모델로 위성 및 우주 분야를 비롯한 전문 기술 영역에 최적화돼 답변의 정확성과 신뢰도를 강화한 것이 특징
픽시 시리즈는 ▲픽시 스플라드 ▲픽시 룬 ▲픽시 스펠 1.7B ▲픽시 스펠 0.6B 등 총 4가지의 모델로 이루어져있음
픽시 스플라드(PIXIE-Splade)는 대규모 문서에서 특정 단어가 포함된 문서를 빠르게 찾고 기존 검색 엔진과도 호환되는 한국어 전용 희소 벡터 모델, 픽시 룬(PIXIE-Rune)은 한국어 및 영어로 학습된 인코더 기반 임베딩 모델, 픽시 스펠(PIXIE-Spell)은 유연한 아키텍처를 바탕으로 정밀하게 의미를 포착하고 다국어 검색을 지원하는 디코더 기반 임베딩 모델
픽시는 한국어와 영어 검색 벤치마크에서도 모두 우수한 NDCG 점수를 기록
NDCG(Normalized Discounted Cumulative Gain)는 사용자의 의도에 부합하는 검색 결과를 상위에 배치하는 능력을 평가하는 국제 표준 지표
※ 참고 Reference
The State of Sovereign AI, LF AI & Data, and LF Research, 2025.08.
https://www.linuxfoundation.org/research/state-of-sovereign-ai?hsLang=en
트릴리온랩스, '트리-70B' 오픈 소스 공개..."학계·산업계 기여할 것", AI타임스, 2025.09.10.
https://www.aitimes.com/news/articleView.html?idxno=202310
한컴, PDF 추출 핵심 기술 글로벌 오픈소스로 공개, 바이라인네트웍스, 2025.09.17.
https://byline.network/2025/09/91711/
텔레픽스, 위성정보 맞춤형 AI 검색모델 ‘픽시’ 오픈소스 공개, AI타임스, 2025.09.05.
https://www.aitimes.com/news/articleView.html?idxno=202141
댓글 0
댓글 작성
댓글을 작성하려면 게시글 작성 시 입력한 이메일과 패스워드를 입력해주세요.