メインコンテンツへスキップ
LLM 評価ジョブは、W&B Multi-tenant Cloudプレビュー版として提供されています。プレビュー期間中は、コンピュートを無料で利用できます。詳細はこちら
このページでは、CoreWeave が管理するインフラストラクチャーを使用して、公開アクセス可能な URL でホストされている API モデルに対して一連の評価ベンチマークを実行するための LLM 評価ジョブ の使い方を説明します。W&B Models の artifact として保存されたモデル チェックポイントを評価する場合は、代わりに モデル チェックポイントを評価する を参照してください。

事前準備

  1. LLM 評価ジョブの要件と制限事項を確認します。
  2. 特定のベンチマークを実行するには、チーム管理者が必要な APIキー をチームスコープのシークレットとして追加しておく必要があります。評価ジョブの設定時には、どのチームメンバーでもそのシークレットを指定できます。
    • OpenAPI APIキー: スコアリングに OpenAI モデルを使用するベンチマークで使われます。ベンチマークを選択した後に Scorer API key フィールドが表示される場合は必須です。シークレット名は OPENAI_API_KEY である必要があります。
    • Hugging Face ユーザーアクセストークン: 1 つ以上の制限付き Hugging Face データセットへのアクセスが必要な lingolylingoly2 など、一部のベンチマークで必須です。ベンチマークを選択した後に Hugging Face Token フィールドが表示される場合は必須です。APIキーには、該当するデータセットへのアクセス権が必要です。ユーザーアクセストークンおよび制限付きデータセットへのアクセスについては、Hugging Face のドキュメントを参照してください。
    • W&B Inference が提供するモデルを評価するには、組織またはチーム管理者が WANDB_API_KEY を任意の値で作成する必要があります。このシークレットは実際には認証には使用されません。
  3. 評価対象のモデルは、公開アクセス可能な URL で利用できる必要があります。組織またはチーム管理者は、認証用の APIキー を含むチームスコープのシークレットを作成する必要があります。
  4. 評価結果用に新しいW&B プロジェクトを作成します。プロジェクトのサイドバーで Create new project をクリックします。
  5. 各ベンチマークの仕組みを理解し、個別の要件を確認するために、そのベンチマークのドキュメントを確認します。参考として、利用可能な評価ベンチマークのリファレンスには関連リンクが含まれています。

モデルを評価する

次の手順に従って、評価ジョブを設定して起動します。
  1. W&B にログインし、プロジェクトのサイドバーで Launch をクリックします。LLM Evaluation Jobs ページが表示されます。
  2. Evaluate ホスト型 API モデル をクリックして、評価を設定します。
  3. 評価結果の保存先となるプロジェクトを選択します。
  4. Model セクションで、評価するベース URL とモデル名を指定し、認証に使用する APIキー を選択します。モデル名は、AI Security Institute で定義されている OpenAI 互換形式で指定してください。たとえば、OpenAI モデルは次の構文で指定します: openai/<model-name>。hosted モデルプロバイダとモデルの一覧については、AI Security Institute’s model provider reference を参照してください。
    • W&B Inference が提供するモデルを評価するには、ベース URL を https://api.inference.wandb.ai/v1 に設定し、モデル名を次の構文で指定します: openai-api/wandb/<model_id>。詳細は Inference model catalog を参照してください。
    • OpenRouter プロバイダを使用するには、モデル名の先頭に openrouter を付けて、次の構文で指定します: openrouter/<model-name>
    • カスタムの OpenAPI 準拠モデルを評価するには、モデル名を次の構文で指定します: openai-api/wandb/<model-name>
  5. Select evaluations をクリックし、実行するベンチマークを最大 4 つまで選択します。
  6. スコアリングに OpenAI モデルを使用するベンチマークを選択すると、Scorer API key フィールドが表示されます。それをクリックして、OPENAI_API_KEY シークレットを選択します。必要に応じて、チーム管理者は Create secret をクリックして、この drawer からシークレットを作成できます。
  7. Hugging Face の制限付きデータセットへのアクセスが必要なベンチマークを選択すると、Hugging Face token フィールドが表示されます。該当するデータセットへのアクセスをリクエスト してから、Hugging Face のユーザーアクセストークンを含むシークレットを選択します。
  8. 必要に応じて、評価するベンチマークサンプルの最大数を制限するには、Sample limit に正の整数を設定します。設定しない場合は、タスク内のすべてのサンプルが対象になります。
  9. リーダーボードを自動的に作成するには、Publish results to leaderboard をクリックします。リーダーボードにはすべての評価が Workspace パネルにまとめて表示され、レポートで共有することもできます。
  10. Launch をクリックして、評価ジョブを起動します。
  11. ページ上部の円形の矢印アイコンをクリックして、最近の run を表示するモーダルを開きます。評価ジョブは、ほかの最近の Runs と一緒に表示されます。完了した run の名前をクリックすると単一 run ビューで開き、Leaderboard リンクをクリックするとリーダーボードを直接開けます。詳細は 結果を表示する を参照してください。
このジョブ例では、OpenAI モデル o4-mini に対して simpleqa ベンチマークを実行しています。
hosted モデル評価ジョブの例
このリーダーボード例では、複数の OpenAI モデルのパフォーマンスをまとめて可視化しています。
複数の hosted モデルのパフォーマンスを可視化したリーダーボードの例

評価結果を確認する

宛先プロジェクトのワークスペースにある W&B Models で、評価ジョブの結果を確認します。
  1. ページ上部の円形矢印アイコンをクリックして、最近の run を表示するモーダルを開きます。ここでは、評価ジョブがプロジェクト内の他の run と一緒に表示されます。評価ジョブにリーダーボードがある場合は、Leaderboard をクリックして全画面で開くか、run 名をクリックしてプロジェクト内の単一 run ビューで開きます。
  2. 評価ジョブのトレースは、ワークスペースの Evaluations セクション、または Weave サイドバーパネルの Traces タブで確認できます。
  3. Overview タブをクリックすると、設定やサマリー メトリクスを含む評価ジョブの詳細情報を確認できます。
  4. Logs タブをクリックすると、評価ジョブのデバッグログを表示、検索、またはダウンロードできます。
  5. Files タブをクリックすると、コード、ログ、設定、その他の出力ファイルを含む評価ジョブのファイルを参照、表示、またはダウンロードできます。

リーダーボードをカスタマイズする

リーダーボードには、指定したプロジェクトに送信されたすべての評価ジョブの結果が表示されます。各評価ジョブの各ベンチマークが 1 行で表示され、列には トレース、入力値、出力値などの詳細が表示されます。リーダーボードの詳細については、Weave の Leaderboardsを参照してください。
リーダーボード上の結果にフィードバックするには、Feedback 列の絵文字アイコンまたはチャットアイコンをクリックします。
  • デフォルトでは、すべての評価ジョブが表示されます。左側の run selector を使用して、評価ジョブをフィルターまたは検索できます。
  • デフォルトでは、評価ジョブはグループ化されていません。1 つ以上の列でグループ化するには、Group アイコンをクリックします。グループの表示/非表示を切り替えたり、グループを展開してその Runs を表示したりできます。
  • デフォルトでは、すべてのオペレーションが表示されます。1 つのオペレーションだけを表示するには、All ops をクリックしてオペレーションを選択します。
  • 列で並べ替えるには、列見出しをクリックします。列の表示をカスタマイズするには、Columns をクリックします。
    • デフォルトでは、ヘッダーは 1 階層で構成されています。ヘッダーの深さを増やすと、関連するヘッダーをまとめて整理できます。
    • 個々の列を選択または選択解除して表示/非表示を切り替えるか、クリック 1 回ですべての列を表示または非表示にできます。
    • 列を固定すると、固定していない列より前に表示できます。

リーダーボードをエクスポートする

リーダーボードをエクスポートするには、次の手順を実行します。
  1. Columns ボタンの近くにあるダウンロードアイコンをクリックします。
  2. エクスポートサイズを抑えるため、デフォルトではトレースルートのみがエクスポートされます。完全なトレースをエクスポートするには、Trace roots only をオフにします。
  3. エクスポートサイズを抑えるため、デフォルトではフィードバックとコストはエクスポートされません。これらをエクスポートに含めるには、Feedback または Costs をオンにします。
  4. デフォルトのエクスポート形式は JSONL です。形式を変更するには、Export to file をクリックして形式を選択します。
  5. ブラウザーでリーダーボードをエクスポートするには、Export をクリックします。
  6. リーダーボードをプログラムからエクスポートするには、Python または cURL を選択し、Copy をクリックしてからスクリプトまたは command を実行します。

評価ジョブを再実行する

状況に応じて、評価ジョブを再実行したり、その設定を表示したりする方法が複数あります。
  • 直前の評価ジョブを再実行するには、モデルを評価する の手順に従います。保存先のプロジェクトを選択すると、前回選択したモデル artifact の詳細とベンチマークが自動的に入力されます。必要に応じて調整してから、評価ジョブを起動します。
  • プロジェクトの Runs タブまたは run selector から評価ジョブを再実行するには、run 名にカーソルを合わせて再生アイコンをクリックします。設定が事前入力された状態でジョブ設定ドロワーが表示されます。必要に応じて設定を調整し、Launch をクリックします。
  • 別のプロジェクトから評価ジョブを再実行するには、その設定をインポートします。
    1. モデルを評価する の手順に従います。保存先のプロジェクトを選択したら、Import configuration をクリックします。
    2. インポートする評価ジョブが含まれるプロジェクトを選択し、次にその評価ジョブの run を選択します。設定が事前入力された状態でジョブ設定ドロワーが表示されます。
    3. 必要に応じて設定を調整します。
    4. Launch をクリックします。

評価ジョブの設定をエクスポートする

run の Files タブから評価ジョブの設定をエクスポートします。
  1. 単一runビューで run を開きます。
  2. Files タブをクリックします。
  3. config.yaml の横にあるダウンロードボタンをクリックして、ローカルに保存します。