sweep コマンドでは、--pause や --resume などのフラグを使用して、sweep が新しい W&B run を作成できるかどうかを制御します。既存の run への影響は次のとおりです。
--pause: sweep を一時停止すると、再開するまで エージェント は新しい run を作成しません。既存の run は通常どおり実行され続けます。--resume: sweep を再開すると、エージェント は探索戦略に従って新しい run の作成を続けます。--stop: sweep を停止すると、エージェント は新しい run の作成を停止します。既存の run は完了まで実行されます。--cancel: sweep をキャンセルすると、エージェント は現在実行中のすべての run を直ちに終了し、新しい run の作成を停止します。
sweep を一時停止する
wandb sweep --pause コマンドを使用します。一時停止したい sweep ID を指定します。
sweep を再開する
wandb sweep --resume コマンドを使用して再開します。sweep は、その探索戦略に従って再び新しい run を作成し始めます。再開したい sweep ID を指定します:
sweep を停止する
wandb sweep --stop コマンドを使用します。
sweep をキャンセルする
wandb sweep --cancel コマンドを使用します。キャンセルする sweep ID を指定してください。シグナルと sweep の run の詳細については、Signal handling and sweep runs を参照してください。
sweep と run のステータスを理解する
主な違い
- sweep ステータスは、新しい run を作成するかどうかを制御します (Running, Paused, Stopped, Cancelled, Finished, Failed, Crashed)
- run ステータスは、個々の run の実行状況を表します (Pending, Running, Finished, Failed, Crashed, Killed)
個別の run を停止する
ベストプラクティス
- 実行中の Experiments を失わずに探索を一時的に中断したい場合は、キャンセル ではなく
--pauseを使用する - 個々の run のステータスを監視して、系統的な障害を特定する
- 十分に満足できるハイパーパラメーターが見つかったら、正常終了のために
--stopを使用する --cancelは、run が過剰なリソースを消費している場合やエラーを出している場合の緊急時にのみ使用する