Passer au contenu principal
Consultez les alertes d’infrastructure, comme les pannes de GPU, les violations thermiques, etc., pendant les expériences de machine learning que vous consignez dans W&B. Lorsque vous exécutez vos workloads sur un cluster CoreWeave Kubernetes Service (CKS) pris en charge, activez cette intégration et remplissez les prérequis de cette page pour permettre à CoreWeave Mission Control de surveiller votre infrastructure de calcul pendant un run W&B.
Cette fonctionnalité est en préversion. Contactez votre représentant W&B pour obtenir l’accès.

Prérequis

Les conditions suivantes doivent être remplies pour que cette intégration fonctionne de bout en bout.
PrérequisDétails
Plateforme CoreWeaveDisponible uniquement sur les clusters CoreWeave Kubernetes Service (CKS). Non disponible sur les clusters bare metal CoreWeave ni sur CoreWeave Classic. Les tâches d’entraînement exécutées via SUNK sur CKS répondent également à cette exigence.
SDK Python W&BPour les tâches d’entraînement, utilisez le package wandb version 0.20.1 ou ultérieure lorsque vous journalisez un run.
serveur W&B (Cloud dédié ou Autogéré)Si vous utilisez un déploiement Cloud dédié de W&B ou W&B Autogéré, utilisez le serveur W&B version 0.73.0 ou ultérieure. Définissez la variable d’environnement SERVER_FLAG_ENABLE_CORE_WEAVE_OBSERVABILITY sur le pod d’application W&B afin que le serveur puisse accepter les données d’observabilité CoreWeave.
En cas d’erreur, CoreWeave envoie ces informations à W&B. W&B ajoute les informations d’infrastructure aux graphiques de votre run dans l’espace de travail de votre projet. CoreWeave tente de résoudre automatiquement certains problèmes, et W&B affiche ces informations sur la page du run.