이 누리집은 대한민국 공식 전자정부 누리집입니다.

[기획브리핑] 생성형 AI와 오픈소스 : 주요 모델의 OSAID 1.0 기준 분석

2025.02.24

생성형 AI와 오픈소스 : 주요 모델의 OSAID 1.0 기준 분석

 

- Open UP -

 

  • 중국 스타트업 딥시크가 DeepSeek-R1 모델을 오픈소스로 공개하면서, 생성형 AI 기술의 접근성과 활용성을 높이는 오픈소스 AI 생태계가 재조명되며 기업들의 오픈소스 전략 채택 가능성도 증가

  • 생성형 AI 모델 4가지에 대해 OSAID 1.0 기준으로 분석한 결과, Mixtral 8x7, DeepSeek-R1이 가장 많은 조건을 충족한 반면, Stable Diffusion 3.5와 Llama 3.1은 OSI에서 승인한 라이선스를 사용하지 않고 특정 조건에 대한 제한 조항이 포함되어있어 일부 요건만 충족

  • 기업들이 생성형 AI에 대해 오픈소스 전략을 채택하는 주요 이유는 개발 비용 절감과 연구 효율성 향상에 있으며, 다양한 연구 커뮤니티 및 개발자들이 참여로 인해 기술 발전 속도가 더욱 가속화되고 있음

 

  • 생성형 AI 기술 혁신 이끄는 오픈소스 AI 생태계 재조명 : 주요 모델별 특징 및 OSAID 1.0 요구 사항 적용 분석

    • 그동안 AI 모델 생태계는 주요 AI 기업들이 개발한 폐쇄형(closed) 모델(오픈AI(GPT-4o), 구글(Gemini) 등)이 주도해왔으나 메타의 LLaMA 모델 공개와 Big Science 프로젝트 'BLOOM' 등 개방성을 갖춘 모델 생태계가 확장되면서 오픈소스 AI가 주목받고 있음

    •  

      • 중국 스타트업 딥시크가 DeepSeek-R1 모델을 오픈소스로 공개하며 AI 기술의 접근성과 활용도에 기여하는 오픈소스 AI의 중요성이 더욱 강조되고 있음

        1. 지금까지 AI 기술은 폐쇄형 모델이 이끌어 왔으나 딥시크가 고성능 모델의 소스코드를 개방하면서 개발 속도와 비용 효율성을 향상시키는 새로운 가능성을 보여줌

      • AI 개발에 오픈소스 생태계가 주목받게 되면서 오픈소스 전략을 선택하는 기업이 점차 늘어날 가능성이 높아지고 있음

        1. 지금까지 메타(LLaMA), 미스트랄AI(Mixtral), 알리바바(Qwen2.5), 딥시크(DeepSeek) 등의 기업이 오픈소스를 기반으로 한 AI 모델을 출시하여 공개

    • 이번 기획브리핑에서 오픈소스 AI 정의 OSAID(Open Source AI Definition) 1.0에 대한 주요 요건 설명 및 주요 생성형 AI 모델별 특징을 살펴보고 모델별 OSAID 1.0 충족 여부를 종합적으로 분석하고자 함

    •  

      1. 오픈소스 AI 정의 1.0 주요 기준 및 필수 요소

        • 오픈소스 이니셔티브(OSI)는 AI의 오픈소스 기준을 명확히 하기 위해 '오픈소스 AI 정의 OSAID 1.0' 발표(‘24.10)

          1. 정의 설계에 마이크로소프트, 구글, 메타, 아마존, 인텔, 삼성 등 주요 업체와 모질라 재단, 리눅스 재단, 아파치 소프트웨어 재단, 유엔 국제전기통신연합 등 25개 이상의 단체 참여

        • [오픈소스 AI 시스템을 위한 4대 자유]

        • 구분설명
          사용의 자유어떤 목적으로든 허가 요청 없이 시스템을 사용할 수 있는 자유
          연구의 자유시스템 작동 방식을 연구하고 구성 요소를 검사할 수 있는 자유
          수정과 개선의 자유시스템의 출력 변경을 포함해 어떤 목적으로든 시스템을 수정할 수 있는 자유
          공유의 자유수정 여부와 상관없이 다른 사람이 사용할 수 있도록 시스템을 공유할 수 있는 자유
        • [오픈소스 AI 4대 자유를 보장하기 위한 필수 요소]

        • 구분설명
          데이터 정보숙련된 사람이 동등한 시스템 구축이 가능하도록 학습 데이터에 대해 충분한 설명과 정보 제공
          1) 데이터 출처, 범위 및 특성, 데이터 수집 및 선택 방법, 레이블 지정 절차, 데이터 처리 및 필터링 방법 공개
          2) 공개적으로 이용 가능한 모든 학습 데이터 목록과 출처 표시
          3) 제3자로부터 얻을 수 있는 모든 학습 데이터 목록과 출처 표시 (유료 데이터 포함)
          코드 정보시스템을 훈련하고 실행하는 데 사용되는 데이터 처리, 필터링, 훈련, 검증, 테스트 등을 위한 전체 소스 코드가 제공되고 OSI 승인 라이선스 (118개)가 적용되어야 함
          매개변수 정보AI 가중치 (모델이 데이터를 학습하면서 최적의 값을 찾아가는 핵심 요소) 또는 기타 구성 설정과 같은 모델 매개 변수 포함
          1. OSI가 검토한 AI 시스템 중 OSAID 정의에 부합하는 오픈소스 AI는 Pythia(Eleuther AI), OLMo(AI2), Amber/CrystalCoder(LLM360), T5(구글)이고, 라이선스와 법적 조건을 변경하면 부합 가능한 모델은 BLOOM(빅사이언스), Starcoder2(빅코드), Falcon(TII)이며, 필수 구성 요소가 없거나 법적 계약이 오픈소스 원칙과 호환되지 않아 부합하지 않은 모델은 LLaMA2(메타), Grok(X/Twitter), Phi-2(마이크로소프트), Mixtral(미스트랄) 등임

      2. 주요 생성형 AI 모델별 특징

        • 생성형 AI 모델은 최종 산출물 유형에 따라 텍스트, 이미지, 음성, 비디오, 기타(코드, 3D 등)으로 분류됨

          1. 텍스트(Text) 생성 모델 : 자연어 문장 생성, 기계 번역, 질문 응답, 요약 생성 등 수행

          2. [텍스트 생성 모델의 특징]

          3. 모델명개발사(국가)라이선스주요 특징
            GPT-o3OpenAI(미국)Commercial
            • 출시 : 2024.12.

            • 자연스러운 대화와 코드 생성

            • 고급 추론 능력 (수학 중심, AIME 2024 수학시험에서 96.7% 정확도 달성)

            • 환각 현상 감소

            Gemini 2.0Google DeepMind (미국)Commercial
            • 출시 : 2024.12.

            • 멀티모달 AI (텍스트, 이미지, 코드, 음성 이해 가능)

            • Google 제품군(Google 검색, Gmail 등)과 통합

            Claude 3.5Anthropic(미국)Commercial
            • 출시 : 2024.10.

            • Sonnet, Haiku, Opus라는 세 가지 모델로 구성

            • AI 안전성과 윤리성을 강조

            • 기업 워크플로우 통합에 강점

            Llama 3.1Meta(미국)Llama 3.1 Community License
            • 출시 : 2024.07.

            • 최대 128K 토큰 컨텍스트 지원, 다국어(8개 언어) 지원

            • 연구자 및 개발자들에게 무료 제공
              (월간 활성 사용자가 7억명 초과 시 Meta의 별도 라이선스 필요)

            MixtralMistral AI(프랑스)Apache 2.0
            • 출시 : 2023.12.

            • MoE(Mixture of Experts) 접근 방식 채택

            • 영어, 프랑스어, 이탈리아어, 독일어, 스페인어 지원

            • 컴팩트하고 효율적인 모델

            • 모바일 및 엣지 애플리케이션 최적화

            DeepSeek-R1DeepSeek(중국)MIT
            • 출시 : 2025.01.

            • OpenAI보다 적은 리소스로 효율성 극대화 및 성능 유지

            • OpenAI 추론 모델 o1 수준 성능

            • MoE(Mixture of Experts) 아키텍처

            • 수학/코딩 추론 특화

            • 보안, 편향성, 유해 콘텐츠 생성 이슈

          4. 이미지(Text-to-Image) 생성 모델 : 자연어 텍스트나 이미지 입력에 대응하여 이미지 생성

          5. [이미지 생성 모델의 특징]

          6. 모델명개발사(국가)라이선스주요 특징
            DALL-E 3OpenAI(미국)Commercial
            • 출시 : 2023.10.

            • ChatGPT와 통합, 향상된 맥락 이해

            • 고해상도 이미지 생성 및 세부 묘사 강화

            Midjourney 6.1Midjourney(미국)Commercial
            • 출시 : 2024.7.

            • Discord를 주요 플랫폼으로 사용, 웹 기반 인터페이스도 제공

            • 이미지 생성 프로세스 최적화, 버전 6 대비 약 25% 향상

            Imagen 3Google DeepMind (미국)Commercial
            • 출시 : 2024.08.

            • T5 대규모 트랜스포머 언어 모델 기반으로 자연어 텍스트 이해력 향상

            • 2단계 생성 프로세스로 세부 표현 강화

            • 디지털 워터마킹 및 안전성, 윤리성, 개인정보 보호 및 보안 최우선 고려

            Stable Diffusion 3.5Stability AI(영국)Stability AI (모델),
            MIT(추론 코드)
            • 출시 : 2024.10.

            • 다양한 모델 변형 (Medium, Large, Large Turbo) 제공

            • 최대 1메가픽셀의 고해상도 이미지 생성

            • 사용자 맞춤형 설계로, 소비자 하드웨어에서도 작동

          7. 음성 생성(Text-to-Speech) 모델 : 텍스트와 음성 샘플 등을 통해 새로운 음성 생성, 변환 등 수행

          8. [음성 생성 모델의 특징]

          9. 모델명개발사(국가)라이선스주요 특징
            WaveNetGoogle DeepMind (미국)Commercial
            • 자연스러운 음성 합성

            • 초당 24,000 샘플 생성

            • 원본 대비 1,000배 빠른 처리

            • Google Assistant 음성 엔진으로 활용

            • Cloud TPU 인프라 기반 운영

            Whisper-large-v3OpenAI(미국)Apache 2.0
            • 출시일 : 2023.11.

            • 500만 시간 이상의 데이터로 학습

            • 99개 언어에 대한 다국어 음성 인식

            • 실시간 자막 생성 및 번역 지원

            • large-v2 대비 10-20% 오류 감소

            OpenVoice v2MyShell(캐나다)/MIT(미국)MIT
            • 출시일 : 2024.4

            • 특정 언어에 대한 사전 학습 없이도 서로 다른 언어 간의 변환 가능

            • 유연한 음성 스타일 제어 (감정, 억양, 리듬, 억양 등) 및 정확한 톤 컬러 복제

            • 다국어 네이티브 지원 (영어, 스페인어, 프랑스어, 중국어, 일본어, 한국어)

            • 상업적 및 연구적 용도 모두 무료

          10. 비디오 생성(Text-to-Video) 모델 : 자연어 텍스트, 이미지, 영상 등을 통해 비디오 생성, 변환 등 수행

          11. [비디오 생성 모델의 특징]

          12. 모델명개발사(국가)라이선스주요 특징
            SoraOpenAI(미국)Commercial
            • 출시일 : 2024.12

            • 최대 1080p 해상도, 최대 20초 영상 생성

            • 사실적인 장면 기반 비디오 생성

            • 딥페이크 우려로 제한적 공개 (유럽과 영국에서 사용 불가)

            • ChatGPT Plus와 Pro 구독자에게 제공

            Make-A-VideoMeta(미국)Commercial
            • 출시일 : 2022.09

            • 이미지 + 텍스트로 비디오 생성

            • 기존 비디오를 바탕으로 유사한 새로운 비디오 생성

            • 초당 24,000개의 샘플 생성

            • 최대 16초 길이의 비디오 생성

            DreamixGoogle(미국)Commercial
            • 출시일 : 2023.02

            • 비디오, 이미지 + 텍스트로 비디오 생성, 편집 및 변형 수행

          13. 기타(3D, 코드) 생성 모델

            1. 3D 생성 모델 : 텍스트, 2D 이미지등을 통해 3D 모델 자동 생성 수행

            2. 코드 생성 모델 : 자연어 텍스트 및 코드 샘플 등을 통해 코드 자동 생성 및 디버깅 수행

          14. [기타(3D, 코드) 생성 모델의 특징]

          15. 모델명개발사(국가)라이선스주요 특징
            NVIDIA GET3DNVIDIA(미국)Commercial
            • 출시일 : 2022.09

            • 3D 모델 자동 생성

            • 2D 이미지만으로 학습하여 고품질 3D 모델 생성

            • 차량, 의자, 동물, 건물 등 다양한 객체 생성

            DreamFusionGoogle(미국)Commercial
            • 출시일 : 2022.10

            • ‘이마겐(Imagen)’과 NeRF 결합

            • 텍스트만으로 3D 모델 생성

            • GitHub에 일부 코드 공개, 연구 목적으로 사용 가능

            CopilotMicrosoft + OpenAI(미국)Commercial
            • 출시일 : 2021.06

            • 개발자용 AI 코딩, 디버깅 도우미

            • 자동 완성 및 코드 생성 제안 제공

            AlphaCodeDeepMind(영국)Commercial
            • 출시일 : 2022.02

            • AI 기반 프로그래밍

            • 715GB 코드 데이터로 학습

            • 12개 프로그래밍 언어 지원

            • 코딩 대회 상위 54% 성능

            Code Llama 70BMeta(미국)Llama 2 Community License
            • 출시일 : 2023.08

            • 코드 작성(생성, 완성, 디버깅) 특화 AI

            • 자연어 프롬프트에서 다양한 언어로 코드 작성

            • 연구 및 상업적 목적으로 무료 사용

            CodeGemmaGoogle(미국)Gemma
            • 출시일 : 2024.04

            • 경량형 오픈 코드 모델 (Gemma 기반)

            • 5천억 토큰으로 학습된 코드 특화 AI 모델

            • 파이썬, JavaScript, Java, Kotlin, C++, C#, Rust, Go 지원

      3. 주요 생성형AI의 오픈소스 AI 정의의 요구 사항 적용 분석

      4. [주요 생성형AI 모델별 OSAID 1.0 정의 충족 여부 확인]

      5. [X - 미충족, △ - 부분 충족, ○ - 충족]

      6. 모델명ChatGPT GPT-o3LLaMA 3.1Mixtral 8x7BStable Diffusion 3.5DeepSeek-R1
        국가미국미국프랑스영국중국
        개발사OpenAIMetaMistral AIStability AIDeepSeek
        출시일2022년 11월2024년 7월2023년 12월2024년 10월2025년 1월
        라이선스CommercialLlama 3.1 Community LicenseApache 2.0Stability AI Community License(모델),
        MIT(추론 코드)
        MIT
        특징
        • 자연스러운 대화 및 코드 생성

        • 고급 추론 능력

        • 최대 128K 토큰 컨텍스트 지원

        • 다국어(8개) 지원

        • 컴팩트하고 효율적인 모델

        • 최대 메가픽셀의 고해상도 이미지 생성

        • 수학/코딩 추론특화 (오픈AI의 추론모델 'o1' 성능)

        OSAID 1.0 요구 사항
        데이터 정보XXXXX
        • 학습 데이터 상세 정보 미공개

        • 출처 불분명

        • 학습 데이터 상세 정보 미공개

        • 필터링 기준 불명확

        • 학습 데이터 상세 정보 미공개

        • 편향성 완화 노력 미흡

        • 학습 데이터 상세 정보 미공개

        • 윤리적 문제 해결 노력 부족

        • 학습 데이터 상세 정보 미공개

        • 개인정보 보호 미흡

        코드 정보X
        • OpenAI 독점 모델

        • OSI 미승인 라이선스

        • Apache 2.0

        • OSI 미승인 라이선스

        • 추론 코드는 MIT

        • MIT 

        매개변수 정보X
        • 모델 가중치 외 구성설정 미공개

        • 일부 매개변수 공개

        • 튜닝 정보 부족

        • OSI 미승인 라이선스

        • 모델 가중치 및 주요 하이퍼파라미터 공개

        • 모델 가중치 공개

        • 일부 레이어 구조 미공개

        • OSI 미승인 라이선스

        • 모델 가중치 및 아키텍처 상세 정보 공개

        오픈소스 AI 정의 (OSAID 1.0)
        사용의 자유X
        • OpenAI 독점 모델

        • 연구용 사용가능

        • 상업 목적 제한조건 (월간사용자수, 경쟁사 사전 허가 등)

        • OSI 미승인 라이선스

        • Apache 2.0 라이선스로 자유로운 사용 가능

        • 연구용 사용가능

        • 상업 목적 사용조건 (연간 수익 최대 100만 달러 미만)

        • OSI 미승인 라이선스

        • MIT 라이선스로 자유로운 사용 가능

        연구의 자유X
        • OpenAI 독점 모델

        • 코드, 가중치, 기초 모델 아키텍처 공개

        • 학습 데이터 상세정보 미공개

        • 코드, 가중치, 모델 아키텍처, 구현 세부 사항 공개

        • 학습 데이터 상세정보 미공개

        • 추론코드, 모델 가중치 공개

        • 학습 데이터 상세정보 미공개

        • 코드, 아키텍처 공개

        • 학습 데이터 상세정보 미공개

        수정과 개선의 자유X
        • OpenAI 독점 모델

        • 수정/개선 가능하나 라이선스 제약 존재

        • OSI 미승인 라이선스

        • 특정 조건에 대한 부분적 제한 있음

        • Apache 2.0 라이선스로 수정/개선 가능

        • 수정/개선 가능하나 라이선스 제약 존재

        • OSI 미승인 라이선스

        • 특정 조건에 대한 부분적 제한 있음

        • MIT 라이선스로 수정/개선 가능

        공유의 자유X
        • OpenAI 독점 모델

        • OSI 미승인 라이선스

        • 특정 조건에 대한 부분적 제한 있음

        • Apache 2.0 라이선스로 자유로운 공유 가능

        • OSI 미승인 라이선스

        • 특정 조건에 대한 부분적 제한 있음

        • MIT 라이선스로 자유로운 공유 가능

        종합해당없음OSAID 1.0 정의
        일부 충족
        OSAID 1.0 정의
        대부분 충족
        OSAID 1.0 정의
        일부 충족
        OSAID 1.0 정의
        대부분 충족
        • 비공개 상용제품

        • 코드, 모델 가중치 공개

        • 데이터 상세정보 미흡

        • 상업적 사용에 제한 조건 포함

        • OSI에서 승인한 라이선스 아님

        • 특정 조건에서 부분적 제한 있음

        • 코드, 모델 가중치 공개

        • 데이터 상세정보 미흡

        • 공식 발표에 오픈 가중치 모델 (Open Weight Model)로 분류

        • 코드, 모델 가중치 공개

        • 데이터 상세정보 미흡

        • 상업적 사용에 제한 조건 포함

        • OSI에서 승인한 라이선스 아님

        • 코드, 모델 가중치 공개

        • 데이터 상세정보 미흡

      7. 생성형 AI 개방성과 기업 전략

        • 앞서 살펴본 주요 생성형 AI 모델의 OSAID 1.0 기반 오픈소스 AI요구사항 분석 결과를 보면 대부분의 생성형 AI 모델이 OSAID 1.0의 엄격한 기준을 충족하지 못하고 있음

          1. 생성형 AI 기업별 전략에 따라 개방성의 수준을 달리하고 있음

            1. 메타나 Stability AI 기업 등과 같이 비표준 라이선스를 사용하거나, 모든 핵심 구성 요소를 공개하지 않는 경우가 다수임

        • AI 개방성은 단순히 오픈소스와 폐쇄형으로 나뉘지 않으며, 다양한 방식의 공개 형태로 존재하고 있음

          1. 이는 AI 개방성을 유지하면서도 기술 주도권을 확보하려는 기업의 전략으로 보임

          2. 비표준 라이선스를 사용하거나, 모든 핵심 구성 요소를 공개하지 않는 등 다양한 수준의 개방성을 가진 모델들을 포괄하여 ’오픈 가중치 모델‘로 분류될 수 있음

            ▶ 오픈 가중치 모델(Open Weight Model)이란

            • ∙ AI 모델을 구성하는 가중치(weight) 값은 공개되어 있지만, 훈련 코드나 데이터셋은 비공개인 인공지능 모델을 의미

            • ∙ (특징) 사전 훈련된 모델의 가중치를 다운로드하여 연구자, 개발자, 기업 등이 모델을 직접 분석하거나 개인 데이터로 특정 용도에 맞게 미세 조정하여 활용 가능

            • ∙ 오픈소스 AI와 유사하지만, 반드시 오픈소스 라이선스를 따르는 것은 아니며 테스트 세트를 공개하지 않는 경우가 많고 학습 과정의 완전한 재현은 불가능

          3. 완전한 오픈소스는 아니지만 개방성을 표방하는 오픈 가중치 모델로 공유되는 모델들도 AI 기술의 재사용을 통해 AI 생태계를 확장하고 다양한 혁신과 발전에 기여하고 있음

        • 기업들이 생성형 AI에 대해 오픈소스 전략을 채택하는 주요 이유는 독점적인 폐쇄형 AI 대비 개발 비용 절감이라는 장점이 있으며 기존 모델을 활용하여 빠르게 개발하여 연구 효율성이 향상됨

          1. 딥시크가 약 560만 달러(오픈AI 투자비용의 약 5.6%)라는 낮은 비용으로 GPT-4와 유사한 성능으로 개발(‘25.02, Deloitte)하여 업계의 주목을 받고 있음

        • 오픈소스 AI는 다양한 연구 커뮤니티 및 개발자가 참여하여 기술 발전 속도를 가속화하고 있음

        • 일부 기업들은 완전한 오픈소스가 아닌 오픈 가중치 모델을 제공하여 시장 점유율을 높이는 전략을 활용하고 있음

 

  • 시사점

    • 생성형 오픈소스 AI 연구 및 개발을 통해 투명성을 강화하고 공정한 경쟁 환경을 조성하기 위한 산업 내 협력 필요

      1. 기업과 연구기관 간 협력을 통해 오픈소스 AI 개발을 촉진하고, 공정한 경쟁 환경을 조성할 산업 내 협력 모델을 구축해야 함

    • 생성형 AI 모델의 신뢰성 확보를 위해 데이터 품질 강화 및 윤리적·법적 기준을 반영한 오픈소스 AI 거버넌스 전략이 필요

      1. 생성형 AI 모델에서 학습 데이터의 품질이 핵심 요소이므로 개방성과 보안을 유지하면서 AI 기술의 책임 있는 활용을 보장해야 함

    • 오픈소스 AI 생태계의 지속 가능성을 확보하기 위해 공공 데이터셋 구축, AI 연구 인프라 제공, 오픈소스 AI 모델 개발 지원 등 공공 연구기관과 정부 차원의 지원 필요

 

 

 

※ 참고 Reference

 

댓글 0

첫 댓글을 작성해보세요!

댓글 작성

댓글을 작성하려면 게시글 작성 시 입력한 이메일과 패스워드를 입력해주세요.