2025.07.22
ⓒ ZDNet Korea / 김미정 기자
인공지능(AI) 에이전트 성능을 자동 평가하는 프레임워크가 등장했다. AI 모델 자체만을 평가하던 벤치마크 한계를 넘어 에이전트의 실질적 성능 분석이 가능한 프레임워크다.
20일 IT 업계에 따르면 세일즈포스는 지난 17일 `모델 컨텍스트 프로토콜 기반 평가 프레임워크(MCPeval): MCP 기반의 자동 심층 에이전트 평가` 논문을 통해 에이전트 문제 해결 능력을 자동 검증할 수 있는 새 벤치마크 프레임워크를 오픈소스로 공개했다.
MCPeval은 MCP 기반으로 에이전트 성능을 검증한다. 사용자가 가상 업무 환경을 제시하면, 에이전트가 MCP를 이용해 필요한 도구 정보를 받아, 주어진 작업을 직접 수행하는 식이다.
(후략)
[원본기사 :
https://zdnet.co.kr/view/?no=20250720135349
]
댓글 0
댓글 작성
댓글을 작성하려면 게시글 작성 시 입력한 이메일과 패스워드를 입력해주세요.