メインコンテンツへスキップ
W&B CLI を使用して、sweep を一時停止、再開、キャンセルします。CLI の sweep コマンドでは、--pause--resume などのフラグを使用して、sweep が新しい W&B run を作成できるかどうかを制御します。既存の run への影響は次のとおりです。
  • --pause: sweep を一時停止すると、再開するまで エージェント は新しい run を作成しません。既存の run は通常どおり実行され続けます。
  • --resume: sweep を再開すると、エージェント は探索戦略に従って新しい run の作成を続けます。
  • --stop: sweep を停止すると、エージェント は新しい run の作成を停止します。既存の run は完了まで実行されます。
  • --cancel: sweep をキャンセルすると、エージェント は現在実行中のすべての run を直ちに終了し、新しい run の作成を停止します。
以下のガイダンスに従って、sweep を一時停止、再開、キャンセルしてください。いずれの場合も、sweep の初期化時に生成された sweep ID を指定します。

sweep を一時停止する

sweep を一時停止すると、新しい run は一時的に作成されなくなります。すでに実行中の run は、完了するまでそのまま継続して実行されます。sweep を一時停止するには、wandb sweep --pause コマンドを使用します。一時停止したい sweep ID を指定します。
wandb sweep --pause entity/project/sweep_ID

sweep を再開する

一時停止した sweep は、wandb sweep --resume コマンドを使用して再開します。sweep は、その探索戦略に従って再び新しい run を作成し始めます。再開したい sweep ID を指定します:
wandb sweep --resume entity/project/sweep_ID

sweep を停止する

sweep を終了すると、新しいrunの作成を止めつつ、現在実行中のrunは正常に完了させることができます。wandb sweep --stop コマンドを使用します。
wandb sweep --stop entity/project/sweep_ID
W&B では、プロジェクトを削除しても、実行中のSweeps やエージェントは停止されません。

sweep をキャンセルする

sweep をキャンセルすると、実行中のすべての run を直ちに強制終了し、新しい run の作成を停止します。これは、既存の run を強制的に終了する唯一の sweep コマンドです。run は即座に終了されるため、実行中のプロセスはユーザー定義のシグナルハンドラーを実行する機会がありません。sweep をキャンセルするには、wandb sweep --cancel コマンドを使用します。キャンセルする sweep ID を指定してください。シグナルと sweep の run の詳細については、Signal handling and sweep runs を参照してください。
wandb sweep --cancel entity/project/sweep_ID
CLI コマンドオプションの一覧は、wandb sweep CLI リファレンスガイドを参照してください。
プロジェクトを削除しても、W&B は実行中の Sweeps やエージェントを終了しません。

sweep と run のステータスを理解する

sweep は、ハイパーパラメーターの組み合わせを探索するために、複数の run を管理します。ハイパーパラメーター最適化を効果的に管理するには、sweep のステータスと run のステータスがどのように関係するかを理解することが重要です。

主な違い

  • sweep ステータスは、新しい run を作成するかどうかを制御します (Running, Paused, Stopped, Cancelled, Finished, Failed, Crashed)
  • run ステータスは、個々の run の実行状況を表します (Pending, Running, Finished, Failed, Crashed, Killed)

個別の run を停止する

sweep 内で run を停止 すると、sweep エージェントは自動的に sweep 内の次の run を開始します。これにより、sweep 全体の進行を中断することなく、パフォーマンスの低い設定をスキップできます。

ベストプラクティス

  • 実行中の Experiments を失わずに探索を一時的に中断したい場合は、キャンセル ではなく --pause を使用する
  • 個々の run のステータスを監視して、系統的な障害を特定する
  • 十分に満足できるハイパーパラメーターが見つかったら、正常終了のために --stop を使用する
  • --cancel は、run が過剰なリソースを消費している場合やエラーを出している場合の緊急時にのみ使用する