2024.11.25
오픈소스 AI의 새로운 표준 : OSI가 제시한 ‘오픈소스 AI 정의 1.0’의 주요 내용 분석
- Open UP -
오픈소스 이니셔티브(OSI), 오픈소스 AI는 OSI가 승인한 조건에 따라 모든 필수 코드, 데이터 및 매개변수와 함께 무료로 제공되는 것으로 4대 기준의 자유를 보장하는 AI 시스템으로 정의
오픈소스 AI 시스템을 위한 4대 자유 : ‘자유로운 사용의 자유’, ‘연구와 검사의 자유’, ‘수정과 개선의 자유’, ‘공유의 자유’
오픈소스 AI 정의 공동 설계 과정에 마이크로소프트, 구글, 메타, 아마존, 인텔, 삼성 등 주요 업체와 모질라 재단, 리눅스 재단, 아파치 소프트웨어 재단, 유엔 국제전기통신연합 등 25개 이상의 단체가 참여
소프트웨어 개발에 오픈소스SW의 활용이 확대되면서 라이선스 위반, 보안 취약점, 종속성 등 리스크 관리를 위해 소프트웨어의 구성 요소를 체계적으로 분석하여 소프트웨어 공급망의 투명성과 보안성을 확보하는 소프트웨어 구성 분석(SCA) 도구와 SBOM 관리의 중요성 증가
기업은 소프트웨어 개발 시 SCA 도구를 통해 SBOM을 자동으로 생성 및 관리하여, 소프트웨어 빌드 단계마다 최신 버전의 구성요소 정보를 반영하는 것이 필요
오픈소스 이니셔티브, 오픈소스 AI 시스템을 정의하는 표준 ‘오픈소스 AI 정의 1.0’공개
오픈소스 이니셔티브(OSI)가 ‘All Things Open 2024’ 컨퍼런스에서 오픈소스 AI 정의(Open Source AI Definition, OSAID) 1.0 버전 발표
OSI는 이 정의가 AI 실무자를 위해 허가가 필요 없고 실용적이며 단순화된 협업을 재창조할 수 있는 일련의 원칙을 수립하는 프로젝트의 첫 번째 안정 버전이라고 설명
오픈소스 AI 시스템을 정확히 정의하는 표준을 만들기 위해 지난 1년간 진행한 글로벌 커뮤니티 이니셔티브의 결과
오픈소스 AI 정의 공동 설계 과정에 마이크로소프트, 구글, 메타, 아마존, 인텔, 삼성 등 주요 업체와 모질라 재단, 리눅스 재단, 아파치 소프트웨어 재단, 유엔 국제전기통신연합 등 25개 이상의 단체가 참여
오픈소스 AI 정의 1.0
오픈소스 AI는 오픈소스 이니셔티브에서 승인한 조건에 따라 모든 필수 코드, 데이터 및 매개변수와 함께 무료로 제공되는 것으로 다음 4대 자유를 보장하는 방식으로 제공되는 AI 시스템
오픈소스 AI 시스템을 위한 4대 자유
어떤 목적으로든 허가 요청 없이 시스템을 사용할 수 있는 자유
시스템 작동 방식을 연구하고 구성 요소를 검사할 수 있는 자유
시스템의 출력 변경을 포함해 어떤 목적으로든 시스템을 수정할 수 있는 자유
수정 여부와 관계없이 다른 사람이 사용할 수 있도록 시스템을 공유할 수 있는 자유
이 기준은 완전하게 작동하는 시스템뿐만 아니라 시스템의 개별 요소에도 적용되며 이 자유를 행사하기 위한 전제 조건은 시스템을 수정하기 위한 선호 형식의 접근 권한을 갖추는 것임
머신러닝 시스템을 수정할 때 권장되는 형식에는 다음의 요소가 포함되어야 함
데이터 정보 : 숙련된 사람이 실질적으로 동등한 시스템 구축이 가능하도록 훈련 데이터에 대해 충분한 설명과 정보를 제공해야 하며 특히 다음 조건을 포함해야 함
1) 교육에 사용된 모든 데이터에 대한 완전한 설명(공유 불가능한 데이터를 사용하는 경우 포함), 데이터 출처, 범위 및 특성, 데이터 수집 및 선택 방법, 레이블 지정 절차, 데이터 처리 및 필터링 방법 공개
2) 공개적으로 이용 가능한 모든 훈련 데이터 목록과 출처 표시
3) 제3자로부터 얻을 수 있는 모든 훈련 데이터 목록과 출처 표시(유료 데이터 포함)
코드: 시스템을 훈련하고 실행하는 데 사용되는 데이터 처리, 필터링, 훈련, 검증, 테스트 등을 위한 전체 소스 코드가 제공되고 OSI 승인 라이선스가 적용되어야 함
매개 변수: 가중치 또는 기타 구성 설정과 같은 모델 매개 변수를 포함하며, OSI 승인 조건에 따라 제공되어야 함
이러한 요소들과 적용되는 라이선스나 다른 조건들은 수정된 버전이 원본과 동일한 조건으로 배포되어야 한다는 조건이 포함될 수 있음
‘오픈소스 모델’과 ‘오픈소스 가중치’에는 해당 매개변수를 도출하는 데 사용된 데이터 정보와 코드가 포함되어야 함
AI 모델 : 모델 아키텍처, 모델 매개변수(가중치 포함), 모델을 실행하기 위한 추론 코드로 구성
AI 가중치 : 주어진 입력에서 출력을 생성하기 위해 모델 아키텍처에 중첩되는 학습된 매개변수 집합
OSI는 OSAID에 대한 검증 및 테스트의 일환으로 오픈소스 AI 정의를 준수하는 AI 시스템을 확인
OSAID 검증 및 테스트를 통과한 AI 모델은 Pythia(Eleuther AI), OLMo(AI2), Amber 및 CrystalCoder(LLM360), T5(구글)로 분석됨
라이선스와 법적 조건을 변경하면 통과할 가능성이 있는 모델은 BLOOM(빅사이언스), Starcoder2(빅코드), Falcon(TII) 등이 있음
필수 구성 요소가 없거나 법적 계약이 오픈소스 원칙과 호환되지 않아 통과하지 못한 모델은 라마2(메타), Grok(X/Twitter), Phi-2(마이크로소프트), Mixtral(미스트랄) 등이 있음
마이크로소프트와 구글은 OSAID 원칙에 맞지 않는 모델에 오픈소스 AI란 용어를 쓰지 않기로 했으며, 메타는 협의에는 참여했으나 최종적으로 오픈소스 AI 용어 사용 중단을 거부함
OSI는 이 결과들은 정의에 대한 학습 및 테스트 과정의 일부로, 어떤 종류의 인증도 아니며, 앞으로 개별 AI 시스템을 검증 또는 리뷰하지 않을 것이라고 명시
전 세계 여러 조직들은 오픈소스 AI 정의애 대해 지지성명 또는 우려을 표명하고 있음
오픈소스 AI를 위한 자체 규격을 보유한 넥스트클라우드(Nextcloud)도 OSAID를 지지하고 있으며, 자사 규격에 포함시킬 계획임
모질라의 AI 전략 책임자인 아야 브데르는 새로운 정의는 오픈소스 모델이 숙련된 사람이 실질적으로 동등한 시스템을 재창조할 수 있도록 훈련 데이터에 대한 충분한 정보를 제공하도록 요구하며, 이는 다수의 독점적 또는 표면적인 오픈소스 모델보다 더 발전된 접근이라고 평가
인포테크 리서치 그룹의 대표 리서치 디렉터 브라이언 잭슨은 기존 오픈소스SW 라이선스에서는 다루지 않는 새로운 아키텍처 등 주요 차이점이 있어 이러한 표준에 대한 긍정적인 평가와 함께,
모델이 학습 데이터를 보류할 수 있다는 점을 언급하며 데이터를 릴리즈하는 것이 불법이더라도 모델은 여전히 오픈소스가 될 수 있는 점에 대한 문제가 해결되지 않았다고 지적
인터넷 감시 재단은 다크웹에서 오픈소스 AI 모델을 이용한 범죄 활동이 증가하고 있다고 보고하였는데 정의 내용에 책임감 있는 AI 개발 관행을 구체적으로 강제하지 않아,
오픈소스 AI가 딥페이크 생성, 피싱 메시지, 취약 사용자 자동 검색 등 악의적 행위자들에게 활용될 수 있는 점에 대한 우려도 제기
투명한 소프트웨어 공급망을 위한 SCA 도구와 SBOM의 중요성 증가
소프트웨어 개발에 오픈소스SW의 활용이 확대됨에 따라 소프트웨어 스택의 구성 요소를 체계적으로 분석하여 투명성과 보안성을 확보하는 것이 중요해지고 있음
소프트웨어에 포함된 상용 및 오픈소스 라이선스의 요구사항을 준수하고 사이버 위협에 대한 방어를 강화하여 기업들의 법적, 기술적 리스크를 완화하기 위한 SBOM 관리가 필수적
최신 소프트웨어 솔루션은 오픈소스SW에 크게 의존하고 있으며, 95%가 넘는 조직이 오픈소스SW 사용을 늘리거나 유지하고 있음(‘24, OpenLogic)
소프트웨어 공급망 공격은 점점 더 정교해지고 있으며 오늘날 2,000개가 넘는 오픈소스SW 라이선스 변형이 존재하고 관련 리스크는 작년에 비해 거의 3배 증가(’24, 가트너)
프로덕션 코드베이스의 96%는 오픈소스 코드를 포함하고 있으며 84%는 알려진 위험과 취약점을 포함(‘24 Synopsys)
가트너는 라이선스 위반, 보안 취약점, 공급망 공격 등 내재적 위험에서 기업을 보호하기 위해 소프트웨어 엔지니어링팀과 보안팀 및 법률팀과의 협력 필요
소프트웨어 엔지니어링 및 보안 직원 간의 협업을 개선하면 소프트웨어 보안 결과가 최대 27%까지 향상(’23 가트너)
오픈소스 라이선스의 복잡한 요구사항에 대한 위험 정책 개발을 위해 법률팀의 지원이 필요
보안 및 법적 위험을 관리하기 위해 전반적인 오픈소스SW 거버넌스 정책의 수립 필요
오픈소스 프로그램 사무소(OSPO)를 설립하여 오픈소스의 사용 관리 정책, 절차, 표준, 지침, 프로세스, 실천 방안 등 오픈소스 거버넌스 정책을 정의하고 관리
또한, 소프트웨어 구성 분석(SCA) 도구를 사용하여 스캔을 자동화하는 것이 오픈소스SW의 안전하고 효율적인 활용을 위한 필수라고 강조
SCA 도구는 소프트웨어 개발 시 코드 및 관련 아티팩트(컨테이너, 레지스트리 등)를 분석하여 보안 및 기능적 취약점이 있는 오픈소스 및 서드파티(3rd party) 소프트웨어 구성 요소를 감지하는 애플리케이션 보안 테스트 도구
소프트웨어 내 보안 패치가 필요한 오래된 구성 요소나 라이선스 위험을 초래하는 구성 요소를 식별하고 관리하여 라이선스 준수 및 보안을 강화하여 안전한 애플리케이션 개발 및 구성을 지원하도록 보장
오픈소스SW와 관련된 라이선스 및 보안 위험을 최소화하는 방안으로 현재 약 50%의 소프트웨어 엔지니어링 팀이 SCA 도구를 워크플로우에 구현하고 있으며 ‘27년까지 이 비율이 약 80%로 증가할 것으로 예상(’24, 가트너)
가트너의 마크 드라이버 분석가는 ‘신흥 기술 : SBOM은 소프트웨어 공급망 관리에 중요하다’라는 보고서를 인용, SBOM은 최신 소프트웨어 배포의 복잡성과 보안성을 관리하는 데 기본이라고 언급
SBOM은 소프트웨어의 구성 요소에 대한 메타정보 목록으로 소프트웨어의 보안 취약점, 출처 및 계보, 라이선스 의무 등의 요구사항을 효과적으로 해결 가능
조직의 78%가 향후 18개월 내에 SBOM 사용을 확대할 계획이며, 32%는 SBOM 사용을 대폭 확대할 계획(‘24, Anchore, 2024 소프트웨어 공급망 보안 보고서)
기업은 소프트웨어 개발 시 SCA 도구를 통해 SBOM을 자동으로 생성 및 관리하여, 소프트웨어 빌드 단계마다 최신 버전의 구성요소 정보를 반영하는 것이 필요
리눅스 재단은 ‘Strengthening License Compliance and Software Security with SBOM Adoption, A Definitive SBOM Guide for Enterprises’ 보고서에서 기업은 SBOM이 각 소프트웨어 빌드마다 자동으로 생성하기 위해 SBOM 생성을 지속적 통합 및 배포(CI/CD) 파이프라인의 일부로 통합해야 한다고 강조
SBOM은 다양한 산업 규제와 표준을 준수하는 데 필수적으로 보안 취약점으로 인한 비즈니스 리스크를 사전에 관리하여 보안 사고 발생률을 감소시킴
SCA 도구는 소스 코드베이스에 대한 자동 스캔을 수행하고 오픈소스 컴포넌트와 해당 라이선스를 식별하고 알려진 취약점을 표시하며 스캔된 코드의 SBOM을 생성하는 데 도움이 됨
SBOM은 소프트웨어에 사용된 오픈소스SW와 라이선스 위반 및 취약점 및 종속성 등 식별할 수 있고 이해관계자들도 구성 요소를 명확하게 파악하여 소프트웨어 공급망의 투명성 확보가 가능
이러한 SBOM 관리를 통해 기업 내 관련 위험 요인을 방지할 수 있으며 기업은 법적, 평판적, 기술적, 재정적 위험을 완화 가능
SBOM을 구성하는 일반적인 5가지 핵심요소
[SBOM의 5가지 핵심 요소]
| 기본 요소 | 설명 |
|---|---|
| 구성요소 목록 |
|
| 출처 정보 |
|
| 종속 관계 |
|
| 취약점 정보 |
|
| 메타데이터와 주석 |
|
기업의 SBOM 도입을 위한 효과적인 9가지 실행 가능 전략
[효과적인 SBOM 도입을 위한 권장 사항]
| No. | 권장 사항 | 설명 |
|---|---|---|
| 1 | 명확한 정책 및 절차 수립 |
|
| 2 | 명확한 역할과 책임 정의 |
|
| 3 | SBOM 생성 자동화 |
|
| 4 | 메타데이터 및 취약점 정보 보강 |
|
| 5 | 컴플라이언스 및 보안 관행에 통합 |
|
| 6 | 직원 교육 및 훈련 |
|
| 7 | SBOM의 정기 업데이트 및 검토 |
|
| 8 | SPDX 협력 및 참여 |
|
| 9 | 효과성 모니터링 및 평가 |
|
* 출처 : Strengthening License Compliance and Software Security with SBOM Adoption, The Linux Foundation
시사점
오픈소스 AI 정의 1.0은 AI 학습 데이터를 다루는 작업의 복잡성을 해결하려는 출발점으로 지속적으로 다양한 오픈소스 커뮤니티와 함께 이를 이해하고 적용하면서 점차 개선해 나가는 노력 필요
리눅스 재단은 장기적 비즈니스 가치를 창출을 위해 기업들이 SBOM과 SCA 도입의 필요성 강조
SBOM과 SCA 도입을 통해 기업은 잠재적인 리스크를 사전에 파악하여 빠른 대응이 가능해짐
SBOM과 SCA는 소프트웨어 보안과 라이선스 등 규제 준수의 핵심 요소로 기업은 경쟁 우위를 확보하고 디지털 환경에서의 신뢰성과 보안성을 높이기 위해 SBOM과 SCA를 전략적으로 활용하는 것이 필요
SBOM을 통해 소프트웨어의 모든 구성 요소를 파악함으로써 투명성을 강화하여 SBOM은 조직 내부뿐만 아니라 외부 이해관계자와의 신뢰 관계를 구축하는 데도 중요한 역할을 할 것으로 예상
주목할 만한 월간 이슈(11월)
(영화) 아카데미 소프트웨어 재단, 최신 샌드박스 프로젝트로 OpenAPV 채택
영화 산업 기술 표준 기관인 아카데미 소프트웨어 재단이 OpenAPV를 개발 초기 단계의 기술을 위한 최신 샌드박스 프로젝트로 채택
OpenAPV는 모바일 기기와 클라우드 기반 도구에 대한 전문가 수준의 비디오 캡처 및 후반 작업 기능을 제공하는 로열티 프리 오픈소스 코덱으로 삼성전자에서 개발된 APV 코덱의 오픈소스 버전
삼성전자는 223년 APV 코덱을 첫 공개하였으며, 이 코덱은 기존 포맷 대비 20% 적은 저장 공간을 차지하면서도 여러 번 압축해도 원본 수준의 품질을 유지, 뛰어난 비디오 품질을 지원
이 코덱은 Apple의 ProRes 및 Avid의 DNxHR 제품군과 같은 독점 코덱에 대한 개방형 대안을 제공
APV의 최초 개발사인 삼성전자는 Adobe, AMD, Autodesk, Epic Games, Intel, NVIDIA 등 주요 VFX 및 애니메이션 회사와 함께 ASWF 프리미어 회원으로 가입
삼성전자는 이전부터도 오픈소스를 제공해 전 세계 개발자들의 자유로운 코덱 개발을 지원해왔으며 110여개의 다양한 오픈소스 프로젝트를 출시
(로봇) 엔비디아, 로봇 학습 및 휴머노이드 개발 가속화하는 AI 도구 오픈소스로 공개
엔비디아(NVIDIA)가 로봇 학습 및 휴머노이드 개발 속도를 높이는 새로운 인공지능(AI) 및 시뮬레이션 도구 ‘아이작 랩(Isaac Lab)’ 오픈소스로 공개
이 도구들은 독일 뮌헨에서 개최된 열린 '로봇 학습 컨퍼런스(Conference on Robot Learning, CoRL 2024)'에서 공개되었으며, AI 기능을 갖춘 로봇 개발자들이 로봇 학습, 제어, 조작, 이동성 등 다양한 로봇 기술을 보다 빠르게 개발할 수 있도록 지원
아이작 랩은 엔비디아 옴니버스(Omniverse) 플랫폼을 기반으로 하는 오픈소스 로봇 학습 프레임워크로, 개발자들이 로봇의 정책을 대규모로 학습시킬 수 있도록 도움
휴머노이드, 사족 보행 로봇, 협력 로봇 등 다양한 로봇에 적용 가능하며, 복잡한 움직임과 상호 작용을 처리하는 데 효과적임
'엔비디아 아이작 랩 1.2'는 오픈소스( 다운 )로 이용 가능하며, 엔비디아 코스모스 토큰라이저(Cosmos tokenizer)는 현재, 깃허브(다운)와 허깅 페이스(다운)를 통해 공개
(OS) 공공부문, '센트OS' 종료 취약점 대응 필요
센트OS가 지난 6월 말 보안 업데이트 지원이 종료됨에 따라 이를 이용하는 시스템이 보안 위협에 노출될 가능성이 커 대책 마련 필요
레드햇 기술 지원 종료에 따라 센트OS 이용자는 유료 리눅스 OS 솔루션으로 교체·도입하거나 별도 보안 기술 지원 서비스를 받아야 함
행안부가 공개하는 '2023년도 공공부문 정보자원 현황 통계보고서'에 따르면 OS 도입 비중은 '레드햇(42.09%), 마이크로소프트(32.20%), 센트OS(8.84%), IBM(8.56%), 오라클(8.31%) 순임
센트OS는 레드햇에 비해 4분의 1수준이지만 공공 사용 OS 톱5 안에 꼽힐만큼 공공 여러 사이트에서 사용 중
※ 참고 Reference
Strengthening License Compliance and Software Security with SBOM Adoption, The Linux Foundation, 2024.08.,
https://www.linuxfoundation.org/research/sbom-guide-for-enterprise
Do You Really Know What’s in Your Software Stack?, The Linux Foundation, 2024.09.04.,
https://www.linuxfoundation.org/blog/do-you-really-know-whats-in-your-software-stack
인사이너리, 가트너 선정 ‘SW 구성 분석(SCA)’ 부문 대표기업, ITDaily, 2024.11.05.,
http://www.itdaily.kr/news/articleView.html?idxno=228413
기업 소프트웨어 공급망 위협 증가로 “SBOM 활용 확대”, GTT Korea, 2024.11.11.,
https://www.gttkorea.com/news/articleView.html?idxno=14675
How to Manage Open-Source Security and Compliance Risks, Gartner By Nitish Tyagi, Anne Thomas, 2024.07.31.
“표준을 향한 첫걸음” OSI, 첫 번째 ‘오픈소스 AI 정의’ 발표, CIO Korea, 2024.10.29.,
https://www.cio.com/article/3593482/%ED%91%9C%EC%A4%80%EC%9D%84-%ED%96%A5%ED%95%9C-%EC%B2%AB%EA%B1%B8%EC%9D%8C-osi-%EC%98%A4%ED%94%88%EC%86%8C%EC%8A%A4-ai-%EC%A0%95%EC%9D%98-1-0-%EB%B0%9C%ED%91%9C.html
The Open Source AI Definition – 1.0, Open Source Initiative
https://opensource.org/ai/open-source-ai-definition
Answers to frequently asked questions, HackMD, 2024.10.29.,
https://hackmd.io/@opensourceinitiative/osaid-faq
‘라마, 믹스트랄은 기준 미달’ 오픈소스 AI 정의 1.0 발표, 바이라인네트워크, 2024.10.30.,
https://byline.network/2024/10/30-355/
Academy Software Foundation Adopts OpenAPV as a Hosted Project, Led by New Premier Member Samsung Electronics, Academy Software Foundation, 2024.10.31.,
https://www.aswf.io/news/academy-software-foundation-adopts-openapv-as-a-hosted-project-led-by-new-premier-member-samsung-electronics/
삼성전자, '엔비디아 참여' 美 아카데미 소프트웨어 재단과 '오픈APV' 개발 박차, 더구루, 2024.11.04.,
https://theguru.co.kr/news/article.html?no=79214
Academy Software Foundation adopts OpenAPV, CG Channel, 2024.11.05.,
https://www.cgchannel.com/2024/11/academy-software-foundation-adopts-openapv/
공공 해킹 지속되는데…'센트OS' 종료 취약점 대응해야, 전자신문, 2024.11.07.,
https://www.etnews.com/20241107000238
로봇 학습 및 휴머노이드 개발 가속화하는 AI 도구...엔비디아, 오픈 소스로 공개, 인공지능신문, 2024.11.14.,
https://www.aitimes.kr/news/articleView.html?idxno=32734
공개SW 포털(oss.kr) ‘공개SW 소식’ 참조
댓글 0
댓글 작성
댓글을 작성하려면 게시글 작성 시 입력한 이메일과 패스워드를 입력해주세요.