메인 콘텐츠로 건너뛰기
LLM 평가 작업은 W&B Multi-tenant Cloud에서 프리뷰 기능으로 제공됩니다. 프리뷰 기간에는 컴퓨팅이 무료입니다. 자세히 알아보기
이 페이지에는 LLM Evaluation Jobs에서 제공하는 카테고리별 평가 벤치마크가 나열되어 있습니다. 특정 벤치마크를 실행하려면 팀 관리자가 필요한 API 키를 team-scoped secrets에 추가해야 합니다. 모든 팀 멤버는 평가 작업을 설정할 때 해당 secret을 지정할 수 있습니다.
  • 벤치마크의 OpenAI Model Scorer 열에 true가 있으면 해당 벤치마크는 채점에 OpenAI 모델을 사용합니다. 조직 또는 팀 관리자는 OpenAI API 키를 팀 secret으로 추가해야 합니다. 이 요구 사항이 있는 벤치마크로 평가 작업을 설정할 때는 Scorer API key 필드에 해당 secret을 설정하세요.
    • 벤치마크의 제한된 Hugging Face 데이터셋 열에 링크가 있으면 해당 벤치마크는 접근이 제한된 Hugging Face 데이터셋에 대한 액세스가 필요합니다. 조직 또는 팀 관리자는 Hugging Face에서 데이터셋에 대한 액세스를 요청하고, Hugging Face 사용자 액세스 토큰을 생성한 다음, 해당 액세스 키로 팀 secret을 구성해야 합니다. 이 요구 사항이 있는 벤치마크를 설정할 때는 Hugging Face Token 필드에 해당 secret을 설정하세요.

지식

과학, 언어, 일반 추론 등 다양한 영역의 사실적 지식을 평가합니다.
평가Task ID
OpenAI Scorer
제한된 Hugging Face 데이터셋설명
BoolQboolq자연어 질의로 구성된 불리언 예/아니오 질문
GPQA Diamondgpqa_diamond대학원 수준의 과학 문제(가장 품질이 높은 하위 집합)
HLEhle인간 수준 평가 벤치마크
Lingolylingoly언어학 올림피아드 문제
Lingoly Toolingoly_too확장된 언어학 챌린지 문제
MMIUmmiu대규모 멀티태스크 언어 이해 벤치마크
MMLU (0-shot)mmlu_0_shot예시 없는 대규모 멀티태스크 언어 이해
MMLU (5-shot)mmlu_5_shot예시 5개가 포함된 대규모 멀티태스크 언어 이해
MMLU-Prommlu_proMMLU의 더 어려운 버전
ONET M6onet_m6직무 지식 벤치마크
PAWSpaws적대적 단어 치환 기반 패러프레이즈
SevenLLM MCQ (English)sevenllm_mcq_en영어 객관식 문제
SevenLLM MCQ (Chinese)sevenllm_mcq_zh중국어 객관식 문제
SevenLLM QA (English)sevenllm_qa_en영어 질의응답
SevenLLM QA (Chinese)sevenllm_qa_zh중국어 질의응답
SimpleQAsimpleqa단순한 사실 기반 질의응답
SimpleQA Verifiedsimpleqa_verified검증된 답변이 포함된 SimpleQA의 검증 하위 집합
WorldSenseworldsense세계 지식과 상식에 대한 이해를 평가

추론

논리적 사고, 문제 해결, 상식적 추론 능력을 평가합니다.
평가Task IDOpenAI Scorer제한된 HF 데이터셋설명
AGIE AQUA-RATagie_aqua_rat풀이 근거를 포함한 대수 문제 질의응답
AGIE LogiQA (English)agie_logiqa_en영어 논리 추론 문제
AGIE LSAT Analytical Reasoningagie_lsat_arLSAT 분석적 추론(로직 게임) 문제
AGIE LSAT Logical Reasoningagie_lsat_lrLSAT 논리 추론 문제
ARC Challengearc_challenge추론이 필요한 어려운 과학 문제(AI2 Reasoning Challenge)
ARC Easyarc_easyARC 데이터셋의 비교적 쉬운 과학 문제 모음
BBHbbhBIG-Bench Hard: BIG-Bench의 어려운 작업
CoCoNotcoconot반사실적 상식 추론 벤치마크
CommonsenseQAcommonsense_qa상식 추론 문제
HellaSwaghellaswag상식 기반 자연어 추론
MUSRmusr다단계 추론 벤치마크
PIQApiqa물리 상식 추론
WinoGrandewinogrande대명사 해소를 통한 상식 추론

수학

초등 수준부터 경시대회 수준까지, 다양한 난이도의 수학 문제 해결 능력을 평가합니다.
평가Task IDOpenAI Scorer제한된 HF 데이터셋설명
AGIE Mathagie_mathAGIE 벤치마크 모음의 고급 수학 추론
AGIE SAT Mathagie_sat_mathSAT 수학 문제
AIME 2024aime20242024년 American Invitational Mathematics Examination 문제
AIME 2025aime20252025년 American Invitational Mathematics Examination 문제
GSM8Kgsm8kGrade School Math 8K: 여러 step으로 이루어진 수학 문장제 문제
InfiniteBench Math Calcinfinite_bench_math_calc긴 문맥에서의 수학 계산
InfiniteBench Math Findinfinite_bench_math_find긴 문맥에서 수학적 패턴 찾기
MATHmath경시대회 수준의 수학 문제
MGSMmgsm다국어 Grade School Math

코드

디버깅, 코드 실행 예측, 함수 호출 등 프로그래밍 및 소프트웨어 개발 역량을 평가합니다.
평가Task IDOpenAI Scorer제한된 HF 데이터셋설명
BFCLbfclBerkeley Function Calling Leaderboard: 함수 호출 및 도구 사용 역량을 테스트합니다
InfiniteBench Code Debuginfinite_bench_code_debug긴 컨텍스트 코드 디버깅 작업
InfiniteBench Code Runinfinite_bench_code_run긴 컨텍스트 코드 실행 예측

읽기

복잡한 텍스트의 독해력과 정보 추출 능력을 평가합니다.
EvaluationTask IDOpenAI Scorer제한된 HF 데이터셋설명
AGIE LSAT Reading Comprehensionagie_lsat_rcLSAT 독해 지문과 문제
AGIE SAT Englishagie_sat_en지문이 포함된 SAT 읽기 및 쓰기 문제
AGIE SAT English (No Passage)agie_sat_en_without_passage지문 없이 제공되는 SAT 영어 문제
DROPdrop문단 기반 이산 추론: 수치 추론이 필요한 독해
RACE-Hrace_h영어 시험 기반 독해 문제(고난도)
SQuADsquadStanford 질문 답변 데이터셋: 위키백과 문서에 대한 추출형 질문 답변

긴 컨텍스트

검색과 패턴 인식을 포함해, 긴 컨텍스트를 처리하고 그 위에서 추론하는 능력을 평가합니다.
EvaluationTask IDOpenAI Scorer제한된 HF 데이터셋설명
InfiniteBench KV Retrievalinfinite_bench_kv_retrieval긴 컨텍스트에서 키-값 검색
InfiniteBench LongBook (English)infinite_bench_longbook_choice_eng긴 분량의 책에 대한 객관식 질문
InfiniteBench LongDialogue QA (English)infinite_bench_longdialogue_qa_eng긴 대화를 대상으로 한 질의응답
InfiniteBench Number Stringinfinite_bench_number_string긴 시퀀스에서 숫자 패턴 인식
InfiniteBench Passkeyinfinite_bench_passkey긴 컨텍스트에서 정보 검색
NIAHniah건초더미에서 바늘 찾기: 긴 컨텍스트 검색 테스트

안전

정렬, 편향 탐지, 유해 콘텐츠에 대한 저항성, 진실성을 평가합니다.
평가Task IDOpenAI Scorer제한된 HF 데이터셋설명
AgentHarmagentharm유해한 에이전트 행동 및 오용 시나리오에 대한 모델의 저항성을 테스트합니다
AgentHarm Benignagentharm_benign거짓 양성 비율을 측정하기 위한 AgentHarm의 무해한 기준선입니다
Agentic Misalignmentagentic_misalignment에이전트적 행동에서 발생할 수 있는 정렬 불일치 가능성을 평가합니다
AHBahbAgent Harmful Behavior: 유해한 에이전트적 행동에 대한 저항성을 테스트합니다
AIRBenchair_bench적대적 지시문에 대한 저항성을 테스트합니다
BBEHbbeh유해한 행동을 평가하기 위한 편향 벤치마크
BBEH Minibbeh_miniBBEH 벤치마크의 소규모 버전
BBQbbqQuestion Answering을 위한 편향 벤치마크
BOLDbold개방형 언어 생성 데이터셋의 편향
CYSE3 Visual Prompt Injectioncyse3_visual_prompt_injection시각적 프롬프트 인젝션 공격에 대한 저항성을 테스트합니다
Make Me Paymake_me_pay금융 사기 및 사기 시나리오에 대한 저항성을 테스트합니다
MASKmask민감한 정보를 모델이 처리하는 방식을 테스트합니다
Personality BFIpersonality_BFIBig Five 성격 특성 평가
Personality TRAITpersonality_TRAIT포괄적인 성격 특성 평가
SOSBenchsosbench안전성과 감독에 대한 스트레스 테스트
StereoSetstereoset언어 모델의 고정관념적 편향을 측정합니다
StrongREJECTstrong_reject유해한 요청을 거부하는 모델의 능력을 테스트합니다
Sycophancysycophancy아첨하는 경향을 평가합니다
TruthfulQAtruthfulqa모델의 진실성과 거짓 정보에 대한 저항성을 테스트합니다
UCCBuccb유해 콘텐츠 분류 벤치마크
WMDP Biowmdp_bio생물학 분야의 위험한 지식을 테스트합니다
WMDP Chemwmdp_chem화학 분야의 위험한 지식을 테스트합니다
WMDP Cyberwmdp_cyber사이버 보안 분야의 위험한 지식을 테스트합니다
XSTestxstest과도한 거부 탐지를 위한 과장된 안전성 테스트

도메인 특화

의학, 화학, 법률, 생물학 및 기타 전문 분야의 전문 지식을 평가합니다.
평가Task IDOpenAI Scorer제한된 HF 데이터셋설명
ChemBenchchembench화학 지식 및 문제 해결 벤치마크
HealthBenchhealthbenchYes헬스케어 및 의학 지식 평가
HealthBench Consensushealthbench_consensusYes전문가 합의가 반영된 헬스케어 질문
HealthBench Hardhealthbench_hardYes까다로운 헬스케어 시나리오
LabBench Cloning Scenarioslab_bench_cloning_scenarios실험실 실험 계획 및 클로닝
LabBench DBQAlab_bench_dbqa실험실 시나리오를 위한 데이터베이스 질의응답
LabBench FigQAlab_bench_figqa과학적 맥락에서의 그림 해석
LabBench LitQAlab_bench_litqa연구용 문헌 기반 질의응답
LabBench ProtocolQAlab_bench_protocolqa실험실 프로토콜 이해
LabBench SeqQAlab_bench_seqqa생물학적 서열 분석 질문
LabBench SuppQAlab_bench_suppqa보충 자료 해석
LabBench TableQAlab_bench_tableqa과학 논문의 표 해석
MedQAmedqa의사 면허 시험 문제
PubMedQApubmedqa연구 초록 기반 생의학 질의응답
SEC-QA v1sec_qa_v1SEC 공시 문서 질의응답
SEC-QA v1 (5-shot)sec_qa_v1_5_shot예시 5개를 사용한 SEC-QA
SEC-QA v2sec_qa_v2업데이트된 SEC 공시 문서 벤치마크
SEC-QA v2 (5-shot)sec_qa_v2_5_shot예시 5개를 사용한 SEC-QA v2

멀티모달

시각적 입력과 텍스트 입력을 결합해 비전 및 언어 이해를 평가합니다.
평가Task IDOpenAI Scorer제한된 HF 데이터셋설명
DocVQAdocvqa문서 이미지에 대한 질문에 답하는 문서 시각 질의응답
MathVistamathvista비전과 수학을 결합한 시각적 맥락에서의 수학적 추론
MMMU Multiple Choicemmmu_multiple_choice객관식 형식의 멀티모달 이해
MMMU Openmmmu_open개방형 응답 형식의 멀티모달 이해
V*Star Bench Attribute Recognitionvstar_bench_attribute_recognition시각적 속성 인식 작업
V*Star Bench Spatial Relationshipvstar_bench_spatial_relationship_reasoning시각적 입력을 활용한 공간 추론

지시사항 준수

특정 지시사항과 형식 요구사항 준수 여부를 평가합니다.
평가Task IDOpenAI Scorer제한된 HF 데이터셋설명
IFEvalifeval정확한 지시사항 준수 능력을 테스트합니다

시스템

기본 시스템 검증 및 사전 점검.
평가Task IDOpenAI Scorer제한된 HF 데이터셋설명
사전 점검pre_flight기본 시스템 점검 및 검증 테스트

다음 단계