산업2026년 4월 6일

엉뚱한 질문으로 구성된 '헛소리벤치' 등장...앤트로픽이 상위권 싹쓸이

의도적으로 엉뚱한 사용자의 질문에 대해 AI 모델이 어떻게 반응하는지를 측정하는 새로운 벤치마크가 등장했다. '헛소리 벤치BullshitBench'라는 이 테스트에서는 앤트로픽의 모델들이 상위권을 싹쓸이했다.5일현지시간 비즈니스 인사이더에 따르면, 모델 평가 회사 아레나Arena의 AI 역량 책임자인 피터 고스테프는 최근 대형언어모델LLM이 허황된 질문에 제대로 대응할지를 테스트하기 위한 헛소리벤치를 개발했다. 2월 말 출시 이후 이 프로젝트는 빠르게 인기를 얻으며 깃허브에서 1200개 이상의 스타를 획득했다.평가 방

이 콘텐츠는 AI타임스 원본 기사의 요약입니다. 전문은 원본 사이트에서 확인해주세요.

원문 기사 보기 →