안녕하세요. 이번에 개인 토이 프로젝트로 소형 LLM을 학습시켜서 깃허브와 허깅페이스에 공개하려고 합니다.
학습을 위해 허깅페이스에서 퀄리티가 좋은 데이터셋을 찾았는데, 라이선스가 CC BY-NC 4.0 (비영리 목적만 허용)이더라고요. 제가 궁금한 점은, 이 비영리 데이터셋을 활용해 학습(Train)시킨 '모델 가중치(Weight)' 파일 자체를 상업적 이용이 가능한 Apache 2.0이나 MIT 라이선스로 배포해도 되는지입니다.
데이터 자체를 그대로 배포하는 건 당연히 안 되겠지만, 데이터를 신경망이 학습해서 만들어낸 파라미터 값에도 원본 데이터의 '비영리' 제약이 전염(Viral)되는 것인지 명확하지가 않습니다. 관련 판례나 오픈소스 생태계에서 사용하는 암묵적인 룰이 있다면 조언 부탁드립니다.
댓글 1
댓글 작성
댓글을 작성하려면 게시글 작성 시 입력한 이메일과 패스워드를 입력해주세요.
* 표시는 필수 입력 사항입니다.