인프라/배포입문
Benchmark
벤치마크 · Benchmark
AI 모델의 성능을 객관적으로 비교 평가하기 위한 표준 테스트
상세 설명
Benchmark (벤치마크)
AI 모델의 성능을 공정하게 비교하는 표준 시험입니다.
주요 벤치마크
- MMLU: 다분야 지식 평가 (57개 과목)
- HumanEval: 코딩 능력 평가
- GPQA: 대학원 수준 과학 문제
- MATH: 수학 문제 해결
- MT-Bench: 대화 능력 평가
- Arena Elo: 사용자 블라인드 평가 (LMSYS)
한계
벤치마크 점수가 높다고 실제 사용에서 항상 좋은 것은 아님
태그
#평가#비교#성능