メインコンテンツへスキップ
W&B にログした機械学習実験の実行中に、GPU 障害や温度異常などのインフラストラクチャーアラートを確認できます。サポートされる CoreWeave Kubernetes Service (CKS) クラスター上で実行し、このインテグレーションを有効にして、このページの前提条件を満たすと、CoreWeave Mission ControlW&B run の実行中にコンピュートインフラストラクチャーを監視できます。
この機能はプレビュー版です。アクセスするには、W&B の担当者にお問い合わせください。

前提条件

このインテグレーションがエンドツーエンドで機能するには、以下の条件を満たしている必要があります。
前提条件詳細
CoreWeave platformCoreWeave Kubernetes Service (CKS) のクラスターでのみ利用できます。CoreWeave のベアメタルクラスターおよび CoreWeave Classic では利用できません。CKS 上で SUNK 経由で実行されるトレーニングジョブも、この要件を満たします。
W&B Python SDKトレーニングジョブでは、run をログする際に wandb パッケージのバージョン 0.20.1 以降を使用してください。
W&B Server (Dedicated Cloud or Self-Managed)W&B Dedicated Cloud または W&B Self-Managed デプロイメントを使用している場合は、W&B Server バージョン 0.73.0 以降を使用してください。サーバーが CoreWeave の observability データを受け取れるように、W&B アプリの pod で SERVER_FLAG_ENABLE_CORE_WEAVE_OBSERVABILITY 環境変数を設定してください。
エラーが発生した場合、CoreWeave はその情報を W&B に送信します。W&B は、project の Workspace 内にある run のプロットにインフラストラクチャー情報を表示します。CoreWeave は一部の問題の自動解決を試み、W&B はその情報を run ページに表示します。