본문 바로가기

Home > 열린마당 > 공개SW 소식

공개SW 소식

  • 2024.08.30
  • ⓒAI타임스 / 박찬 기자 

엔비디아가 복잡한 시각 정보를 이해해 상호 작용하는 능력을 크게 향상한 새로운 멀티모달언어모델(LMM)을 오픈 소스로 공개했다.
벤처비트는 29일(현지시간) 엔비디아가 여러 비전 인코더를 도입하고 높은 입력 해상도를 혼합해 시각 정보 인식을 강화한 LMM ‘이글(Eagle)’에 관한 논문을 아카이브에 게재했다고 보도했다.
이글의 주요 혁신 중 하나는 기존 모델보다 훨씬 높은 1024×1024 픽셀 해상도의 이미지를 처리할 수 있는 능력이다. 이를 통해 광학 문자 인식(OCR)과 같은 작업에서 세부 사항을 정밀하게 포착할 수 있다.
(후략)

 

[원본기사 : https://www.aitimes.com/news/articleView.html?idxno=162982]

맨 위로
맨 위로