LLM 평가 작업은 W&B Multi-tenant Cloud에서 프리뷰 기능으로 제공됩니다. 프리뷰 기간에는 컴퓨팅이 무료입니다. 자세히 알아보기
작동 방식
- W&B Models에서 평가 작업을 설정합니다. 리더보드 생성 여부 등의 벤치마크와 설정을 정의합니다.
- 평가 작업을 실행합니다.
- 결과와 리더보드를 확인하고 분석합니다.

다음 단계
자세한 내용
가격
작업 제한
- 평가할 모델의 최대 크기는 컨텍스트를 포함해 86GB입니다.
- 각 작업은 GPU 2개로 제한됩니다.
요구 사항
- 모델 체크포인트를 평가하려면 모델 가중치를 vLLM 호환 artifact로 패키징해야 합니다. 자세한 내용과 예제 코드는 예시: 모델 준비를 참조하세요.
- OpenAI 호환 모델을 평가하려면 공개 URL로 접근할 수 있어야 하며, 인증에 사용할 API 키를 포함한 팀 시크릿을 조직 관리자 또는 팀 관리자가 구성해야 합니다.
- 일부 벤치마크는 점수 산정에 OpenAI 모델을 사용합니다. 이러한 벤치마크를 실행하려면 조직 관리자 또는 팀 관리자가 필요한 API 키가 포함된 팀 시크릿을 구성해야 합니다. 벤치마크에 이 요구 사항이 있는지는 Evaluation benchmark catalog를 참조하세요.
- 일부 벤치마크는 Hugging Face의 제한된 데이터셋에 대한 접근 권한이 필요합니다. 이러한 벤치마크를 실행하려면 조직 관리자 또는 팀 관리자가 Hugging Face에서 해당 제한 데이터셋에 대한 접근 권한을 요청하고, Hugging Face 사용자 액세스 token을 생성한 다음, 이를 팀 시크릿으로 구성해야 합니다. 벤치마크에 이 요구 사항이 있는지는 Evaluation benchmark catalog를 참조하세요.