Evaluation 벤치마크 카탈로그

LLM 평가 작업은 W&B Multi-tenant Cloud에서 프리뷰 기능으로 제공됩니다. 프리뷰 기간에는 컴퓨팅이 무료입니다. 자세히 알아보기

이 페이지에는 LLM Evaluation Jobs에서 제공하는 카테고리별 평가 벤치마크가 나열되어 있습니다. 특정 벤치마크를 실행하려면 팀 관리자가 필요한 API 키를 team-scoped secrets에 추가해야 합니다. 모든 팀 멤버는 평가 작업을 설정할 때 해당 secret을 지정할 수 있습니다.

벤치마크의 OpenAI Model Scorer 열에 true가 있으면 해당 벤치마크는 채점에 OpenAI 모델을 사용합니다. 조직 또는 팀 관리자는 OpenAI API 키를 팀 secret으로 추가해야 합니다. 이 요구 사항이 있는 벤치마크로 평가 작업을 설정할 때는 Scorer API key 필드에 해당 secret을 설정하세요.
- 벤치마크의 제한된 Hugging Face 데이터셋 열에 링크가 있으면 해당 벤치마크는 접근이 제한된 Hugging Face 데이터셋에 대한 액세스가 필요합니다. 조직 또는 팀 관리자는 Hugging Face에서 데이터셋에 대한 액세스를 요청하고, Hugging Face 사용자 액세스 토큰을 생성한 다음, 해당 액세스 키로 팀 secret을 구성해야 합니다. 이 요구 사항이 있는 벤치마크를 설정할 때는 Hugging Face Token 필드에 해당 secret을 설정하세요.

지식

과학, 언어, 일반 추론 등 다양한 영역의 사실적 지식을 평가합니다.

평가	Task ID	OpenAI Scorer	제한된 Hugging Face 데이터셋	설명
BoolQ	`boolq`			자연어 질의로 구성된 불리언 예/아니오 질문
GPQA Diamond	`gpqa_diamond`			대학원 수준의 과학 문제(가장 품질이 높은 하위 집합)
HLE	`hle`		예	인간 수준 평가 벤치마크
Lingoly	`lingoly`		예	언어학 올림피아드 문제
Lingoly Too	`lingoly_too`		예	확장된 언어학 챌린지 문제
MMIU	`mmiu`			대규모 멀티태스크 언어 이해 벤치마크
MMLU (0-shot)	`mmlu_0_shot`			예시 없는 대규모 멀티태스크 언어 이해
MMLU (5-shot)	`mmlu_5_shot`			예시 5개가 포함된 대규모 멀티태스크 언어 이해
MMLU-Pro	`mmlu_pro`			MMLU의 더 어려운 버전
ONET M6	`onet_m6`			직무 지식 벤치마크
PAWS	`paws`			적대적 단어 치환 기반 패러프레이즈
SevenLLM MCQ (English)	`sevenllm_mcq_en`			영어 객관식 문제
SevenLLM MCQ (Chinese)	`sevenllm_mcq_zh`			중국어 객관식 문제
SevenLLM QA (English)	`sevenllm_qa_en`			영어 질의응답
SevenLLM QA (Chinese)	`sevenllm_qa_zh`			중국어 질의응답
SimpleQA	`simpleqa`	예		단순한 사실 기반 질의응답
SimpleQA Verified	`simpleqa_verified`			검증된 답변이 포함된 SimpleQA의 검증 하위 집합
WorldSense	`worldsense`			세계 지식과 상식에 대한 이해를 평가

추론

논리적 사고, 문제 해결, 상식적 추론 능력을 평가합니다.

평가	Task ID	설명
AGIE AQUA-RAT	`agie_aqua_rat`	풀이 근거를 포함한 대수 문제 질의응답
AGIE LogiQA (English)	`agie_logiqa_en`	영어 논리 추론 문제
AGIE LSAT Analytical Reasoning	`agie_lsat_ar`	LSAT 분석적 추론(로직 게임) 문제
AGIE LSAT Logical Reasoning	`agie_lsat_lr`	LSAT 논리 추론 문제
ARC Challenge	`arc_challenge`	추론이 필요한 어려운 과학 문제(AI2 Reasoning Challenge)
ARC Easy	`arc_easy`	ARC 데이터셋의 비교적 쉬운 과학 문제 모음
BBH	`bbh`	BIG-Bench Hard: BIG-Bench의 어려운 작업
CoCoNot	`coconot`	반사실적 상식 추론 벤치마크
CommonsenseQA	`commonsense_qa`	상식 추론 문제
HellaSwag	`hellaswag`	상식 기반 자연어 추론
MUSR	`musr`	다단계 추론 벤치마크
PIQA	`piqa`	물리 상식 추론
WinoGrande	`winogrande`	대명사 해소를 통한 상식 추론

수학

초등 수준부터 경시대회 수준까지, 다양한 난이도의 수학 문제 해결 능력을 평가합니다.

평가	Task ID	설명
AGIE Math	`agie_math`	AGIE 벤치마크 모음의 고급 수학 추론
AGIE SAT Math	`agie_sat_math`	SAT 수학 문제
AIME 2024	`aime2024`	2024년 American Invitational Mathematics Examination 문제
AIME 2025	`aime2025`	2025년 American Invitational Mathematics Examination 문제
GSM8K	`gsm8k`	Grade School Math 8K: 여러 step으로 이루어진 수학 문장제 문제
InfiniteBench Math Calc	`infinite_bench_math_calc`	긴 문맥에서의 수학 계산
InfiniteBench Math Find	`infinite_bench_math_find`	긴 문맥에서 수학적 패턴 찾기
MATH	`math`	경시대회 수준의 수학 문제
MGSM	`mgsm`	다국어 Grade School Math

코드

디버깅, 코드 실행 예측, 함수 호출 등 프로그래밍 및 소프트웨어 개발 역량을 평가합니다.

평가	Task ID	설명
BFCL	`bfcl`	Berkeley Function Calling Leaderboard: 함수 호출 및 도구 사용 역량을 테스트합니다
InfiniteBench Code Debug	`infinite_bench_code_debug`	긴 컨텍스트 코드 디버깅 작업
InfiniteBench Code Run	`infinite_bench_code_run`	긴 컨텍스트 코드 실행 예측

읽기

복잡한 텍스트의 독해력과 정보 추출 능력을 평가합니다.

Evaluation	Task ID	설명
AGIE LSAT Reading Comprehension	`agie_lsat_rc`	LSAT 독해 지문과 문제
AGIE SAT English	`agie_sat_en`	지문이 포함된 SAT 읽기 및 쓰기 문제
AGIE SAT English (No Passage)	`agie_sat_en_without_passage`	지문 없이 제공되는 SAT 영어 문제
DROP	`drop`	문단 기반 이산 추론: 수치 추론이 필요한 독해
RACE-H	`race_h`	영어 시험 기반 독해 문제(고난도)
SQuAD	`squad`	Stanford 질문 답변 데이터셋: 위키백과 문서에 대한 추출형 질문 답변

긴 컨텍스트

검색과 패턴 인식을 포함해, 긴 컨텍스트를 처리하고 그 위에서 추론하는 능력을 평가합니다.

Evaluation	Task ID	설명
InfiniteBench KV Retrieval	`infinite_bench_kv_retrieval`	긴 컨텍스트에서 키-값 검색
InfiniteBench LongBook (English)	`infinite_bench_longbook_choice_eng`	긴 분량의 책에 대한 객관식 질문
InfiniteBench LongDialogue QA (English)	`infinite_bench_longdialogue_qa_eng`	긴 대화를 대상으로 한 질의응답
InfiniteBench Number String	`infinite_bench_number_string`	긴 시퀀스에서 숫자 패턴 인식
InfiniteBench Passkey	`infinite_bench_passkey`	긴 컨텍스트에서 정보 검색
NIAH	`niah`	건초더미에서 바늘 찾기: 긴 컨텍스트 검색 테스트

안전

정렬, 편향 탐지, 유해 콘텐츠에 대한 저항성, 진실성을 평가합니다.

평가	Task ID	OpenAI Scorer	제한된 HF 데이터셋	설명
AgentHarm	`agentharm`	예		유해한 에이전트 행동 및 오용 시나리오에 대한 모델의 저항성을 테스트합니다
AgentHarm Benign	`agentharm_benign`	예		거짓 양성 비율을 측정하기 위한 AgentHarm의 무해한 기준선입니다
Agentic Misalignment	`agentic_misalignment`			에이전트적 행동에서 발생할 수 있는 정렬 불일치 가능성을 평가합니다
AHB	`ahb`			Agent Harmful Behavior: 유해한 에이전트적 행동에 대한 저항성을 테스트합니다
AIRBench	`air_bench`			적대적 지시문에 대한 저항성을 테스트합니다
BBEH	`bbeh`			유해한 행동을 평가하기 위한 편향 벤치마크
BBEH Mini	`bbeh_mini`			BBEH 벤치마크의 소규모 버전
BBQ	`bbq`			Question Answering을 위한 편향 벤치마크
BOLD	`bold`			개방형 언어 생성 데이터셋의 편향
CYSE3 Visual Prompt Injection	`cyse3_visual_prompt_injection`			시각적 프롬프트 인젝션 공격에 대한 저항성을 테스트합니다
Make Me Pay	`make_me_pay`			금융 사기 및 사기 시나리오에 대한 저항성을 테스트합니다
MASK	`mask`	예	예	민감한 정보를 모델이 처리하는 방식을 테스트합니다
Personality BFI	`personality_BFI`			Big Five 성격 특성 평가
Personality TRAIT	`personality_TRAIT`		예	포괄적인 성격 특성 평가
SOSBench	`sosbench`	예		안전성과 감독에 대한 스트레스 테스트
StereoSet	`stereoset`			언어 모델의 고정관념적 편향을 측정합니다
StrongREJECT	`strong_reject`			유해한 요청을 거부하는 모델의 능력을 테스트합니다
Sycophancy	`sycophancy`			아첨하는 경향을 평가합니다
TruthfulQA	`truthfulqa`			모델의 진실성과 거짓 정보에 대한 저항성을 테스트합니다
UCCB	`uccb`			유해 콘텐츠 분류 벤치마크
WMDP Bio	`wmdp_bio`			생물학 분야의 위험한 지식을 테스트합니다
WMDP Chem	`wmdp_chem`			화학 분야의 위험한 지식을 테스트합니다
WMDP Cyber	`wmdp_cyber`			사이버 보안 분야의 위험한 지식을 테스트합니다
XSTest	`xstest`	예		과도한 거부 탐지를 위한 과장된 안전성 테스트

도메인 특화

의학, 화학, 법률, 생물학 및 기타 전문 분야의 전문 지식을 평가합니다.

평가	Task ID	OpenAI Scorer	설명
ChemBench	`chembench`		화학 지식 및 문제 해결 벤치마크
HealthBench	`healthbench`	Yes	헬스케어 및 의학 지식 평가
HealthBench Consensus	`healthbench_consensus`	Yes	전문가 합의가 반영된 헬스케어 질문
HealthBench Hard	`healthbench_hard`	Yes	까다로운 헬스케어 시나리오
LabBench Cloning Scenarios	`lab_bench_cloning_scenarios`		실험실 실험 계획 및 클로닝
LabBench DBQA	`lab_bench_dbqa`		실험실 시나리오를 위한 데이터베이스 질의응답
LabBench FigQA	`lab_bench_figqa`		과학적 맥락에서의 그림 해석
LabBench LitQA	`lab_bench_litqa`		연구용 문헌 기반 질의응답
LabBench ProtocolQA	`lab_bench_protocolqa`		실험실 프로토콜 이해
LabBench SeqQA	`lab_bench_seqqa`		생물학적 서열 분석 질문
LabBench SuppQA	`lab_bench_suppqa`		보충 자료 해석
LabBench TableQA	`lab_bench_tableqa`		과학 논문의 표 해석
MedQA	`medqa`		의사 면허 시험 문제
PubMedQA	`pubmedqa`		연구 초록 기반 생의학 질의응답
SEC-QA v1	`sec_qa_v1`		SEC 공시 문서 질의응답
SEC-QA v1 (5-shot)	`sec_qa_v1_5_shot`		예시 5개를 사용한 SEC-QA
SEC-QA v2	`sec_qa_v2`		업데이트된 SEC 공시 문서 벤치마크
SEC-QA v2 (5-shot)	`sec_qa_v2_5_shot`		예시 5개를 사용한 SEC-QA v2

멀티모달

시각적 입력과 텍스트 입력을 결합해 비전 및 언어 이해를 평가합니다.

평가	Task ID	설명
DocVQA	`docvqa`	문서 이미지에 대한 질문에 답하는 문서 시각 질의응답
MathVista	`mathvista`	비전과 수학을 결합한 시각적 맥락에서의 수학적 추론
MMMU Multiple Choice	`mmmu_multiple_choice`	객관식 형식의 멀티모달 이해
MMMU Open	`mmmu_open`	개방형 응답 형식의 멀티모달 이해
V*Star Bench Attribute Recognition	`vstar_bench_attribute_recognition`	시각적 속성 인식 작업
V*Star Bench Spatial Relationship	`vstar_bench_spatial_relationship_reasoning`	시각적 입력을 활용한 공간 추론

지시사항 준수

특정 지시사항과 형식 요구사항 준수 여부를 평가합니다.

평가	Task ID	OpenAI Scorer	제한된 HF 데이터셋	설명
IFEval	`ifeval`			정확한 지시사항 준수 능력을 테스트합니다

시스템

기본 시스템 검증 및 사전 점검.

평가	Task ID	OpenAI Scorer	제한된 HF 데이터셋	설명
사전 점검	`pre_flight`			기본 시스템 점검 및 검증 테스트

Guides

Integrations

Reference

지식

추론

수학

코드

읽기

긴 컨텍스트

안전

도메인 특화

멀티모달

지시사항 준수

시스템

다음 단계

Guides

Integrations

Reference

​지식

​추론

​수학

​코드

​읽기

​긴 컨텍스트

​안전

​도메인 특화

​멀티모달

​지시사항 준수

​시스템

​다음 단계

지식

추론

수학

코드

읽기

긴 컨텍스트

안전

도메인 특화

멀티모달

지시사항 준수

시스템

다음 단계