wandb enregistre automatiquement les métriques du système toutes les 15 secondes.Afficher les métriques système
wandb beta leet.
- App
- LEET
Pour afficher les métriques système dans la W&B App :
- Accédez à votre projet dans la W&B App.
- Sélectionnez un run dans le tableau Runs.
- Dans le Workspace, recherchez la section System, qui affiche des graphiques pour :
- l’utilisation du GPU et la mémoire
- l’utilisation du CPU
- l’utilisation de la mémoire
- les E/S du disque
- le trafic réseau
CPU
Pourcentage CPU du processus (CPU)
cpu à cette métrique.
Threads CPU du processus
proc.cpu.threads à cette métrique.
Disque
/. Pour configurer les chemins à surveiller, utilisez le paramètre suivant :
Pourcentage d’utilisation du disque
disk.{path}.usagePercent à cette métrique.
Utilisation du disque
disk.{path}.usageGB à cette métrique.
Disque In
disk.in à cette métrique.
Écriture sur disque
disk.out à cette métrique.
Mémoire
Mémoire RSS du processus
proc.memory.rssMB à cette métrique.
Pourcentage de mémoire du processus
proc.memory.percent à cette métrique.
Pourcentage de mémoire
memory_percent à cette métrique.
Mémoire disponible
proc.memory.availableMB à cette métrique.
Réseau
Octets réseau envoyés
network.sent à cette métrique.
Données reçues sur le réseau
network.recv à cette métrique.
GPU NVIDIA
gpu.process.{gpu_index}.{metric_name}
Utilisation de la mémoire GPU
gpu.{gpu_index}.memory.
Mémoire GPU allouée
gpu.{gpu_index}.memoryAllocated à cette métrique.
Mémoire GPU allouée en octets
gpu.{gpu_index}.memoryAllocatedBytes à cette métrique.
Utilisation du GPU
gpu.{gpu_index}.gpu à cette métrique.
Température du GPU
gpu.{gpu_index}.temp à cette métrique.
Consommation électrique du GPU en watts
gpu.{gpu_index}.powerWatts à cette métrique.
Pourcentage de consommation électrique du GPU
gpu.{gpu_index}.powerPercent à cette métrique.
Vitesse d’horloge du SM du GPU
gpu.{gpu_index}.smClock à cette métrique.
Fréquence d’horloge de la mémoire du GPU
gpu.{gpu_index}.memoryClock.
Fréquence d’horloge graphique du GPU
gpu.{gpu_index}.graphicsClock à cette métrique.
Erreurs de mémoire GPU corrigées
gpu.{gpu_index}.correctedMemoryErrors à cette métrique.
Erreurs de mémoire non corrigées du GPU
gpu.{gpu_index}.unCorrectedMemoryErrors.
Utilisation de l’encodeur GPU
gpu.{gpu_index}.encoderUtilization à cette métrique.
GPU AMD
rocm-smi fourni par AMD (rocm-smi -a --json).
Les formats ROCm 6.x (dernière version) et 5.x sont pris en charge. Pour en savoir plus sur les formats ROCm, consultez la documentation AMD ROCm. Le format le plus récent inclut plus de détails.
Utilisation des GPU AMD
gpu.{gpu_index}.gpu à cette métrique.
Mémoire GPU AMD allouée
gpu.{gpu_index}.memoryAllocated à cette métrique.
Température du GPU AMD
gpu.{gpu_index}.temp à cette métrique.
Consommation électrique du GPU AMD en watts
gpu.{gpu_index}.powerWatts à cette métrique.
Pourcentage de consommation électrique du GPU AMD
gpu.{gpu_index}.powerPercent à cette métrique.
GPU sur Mac Apple ARM
Utilisation du GPU Apple
gpu.0.gpu à cette métrique.
Mémoire allouée du GPU Apple
gpu.0.memoryAllocated à cette métrique.
Température du GPU Apple
gpu.0.temp à cette métrique.
Consommation du GPU Apple en watts
gpu.0.powerWatts.
Pourcentage d’utilisation de la puissance du GPU Apple
gpu.0.powerPercent à cette métrique.
Graphcore IPU
Métriques de l’appareil IPU
device_id) et une clé de métrique (metric_key) pour l’identifier. W&B attribue à cette métrique la balise ipu.{device_id}.{metric_key}.
Les métriques sont extraites à l’aide de la bibliothèque propriétaire gcipuinfo, qui interagit avec le binaire gcipuinfo de Graphcore. La méthode sample récupère ces métriques pour chaque appareil IPU associé à l’ID de processus (pid). Pour éviter d’enregistrer des données redondantes, seules les métriques qui évoluent au fil du temps, ainsi que celles récupérées lors de la première collecte des métriques d’un appareil, sont enregistrées.
Pour chaque métrique, la méthode parse_metric est utilisée pour extraire la valeur de la métrique à partir de sa représentation brute sous forme de chaîne. Les métriques sont ensuite agrégées sur plusieurs échantillons à l’aide de la méthode aggregate.
La liste suivante présente les métriques disponibles et leurs unités :
- Température moyenne de la carte (
average board temp (C)) : Température de la carte IPU en degrés Celsius. - Température moyenne de la puce (
average die temp (C)) : Température de la puce IPU en degrés Celsius. - Fréquence d’horloge (
clock (MHz)) : Fréquence d’horloge de l’IPU en MHz. - Puissance de l’IPU (
ipu power (W)) : Consommation électrique de l’IPU en watts. - Utilisation de l’IPU (
ipu utilisation (%)) : Pourcentage d’utilisation de l’IPU. - Utilisation de session de l’IPU (
ipu utilisation (session) (%)) : Pourcentage d’utilisation de l’IPU propre à la session en cours. - Vitesse de liaison des données (
speed (GT/s)) : Vitesse de transmission des données en gigatransferts par seconde.
Google Cloud TPU
Les métriques exactes rapportées dépendent de la génération de la puce TPU, comme v4, v5e, v5p, v6e ou 7x, ainsi que de l’environnement d’exécution.
Métriques de calcul TPU
-
tpu.{tpu_index}.tensorcoreUtilization: Pourcentage d’utilisation du TensorCore pour chaque appareil. Il s’agit de la mesure la plus directe pour déterminer si les unités de calcul TensorCore sont pleinement utilisées. -
tpu.{tpu_index}.dutyCycle: Pourcentage du temps, pendant la période d’échantillonnage, durant lequel le TensorCore de l’accélérateur traitait activement des données. Cette métrique est fournie par puce et ventilée sur tous les appareils des puces comportant plusieurs appareils. Des valeurs plus élevées indiquent une meilleure utilisation du TensorCore.
Métriques de mémoire des TPU
-
tpu.{tpu_index}.hbmCapacityTotal: Capacité totale de mémoire à haute bande passante (HBM) en octets pour chaque appareil. -
tpu.{tpu_index}.hbmCapacityUsage: Utilisation actuelle de la mémoire HBM en octets pour chaque appareil.
État de santé de l’interconnexion TPU
tpu.{tpu_index}.iciLinkHealth: état de santé du lien Inter-Chip Interconnect (ICI) pour chaque appareil. Cette métrique est disponible uniquement via le chemin d’accès du SDK libtpu.
Latence des transferts TPU
-
tpu.bufferTransferLatency.{label}.{stat}Us: latences de transfert de mémoire tampon DCN (Data Center Network) entre les slices. -
tpu.inboundBufferTransferLatency.{label}.{stat}Us: latences de transfert entrant de mémoire tampon DCN. -
tpu.hostToDeviceTransferLatency.{label}.{stat}Us: latences de transfert de données de l’hôte vers le périphérique. -
tpu.deviceToHostTransferLatency.{label}.{stat}Us: latences de transfert de données du périphérique vers l’hôte.
Communications collectives TPU
-
tpu.collectiveE2ELatency.{label}.{stat}Us: Latence de bout en bout des opérations collectives, telles que all-reduce et all-gather. -
tpu.hostComputeLatency.{label}.{stat}Us: Latences de calcul côté hôte, y compris celles du calcul MXLA.
Métriques réseau des TPU
-
tpu.grpcTcpMinRtt.{stat}Us: Latence aller-retour TCP minimale pour les connexions gRPC. -
tpu.grpcTcpDeliveryRate.{stat}Mbps: Débit TCP pour les connexions gRPC, en mégabits par seconde.
Métriques d’exécution HLO sur TPU
-
tpu.hloExecTiming.{label}.{stat}Us: distribution des durées d’exécution HLO (High Level Operations) en microsecondes. Cette métrique indique le temps d’exécution par opération. -
tpu.hloQueueSize.{label}: taille actuelle de la file d’attente d’exécution HLO. Cette métrique indique combien d’opérations sont en attente d’exécution.
AWS Trainium
neuron-monitor d’AWS sert à collecter les métriques d’AWS Trainium.
Utilisation des NeuronCore de Trainium
trn.{core_index}.neuroncore_utilization à cette métrique.
Utilisation totale de la mémoire de l’hôte Trainium
trn.host_total_memory_usage à cette métrique.
Utilisation totale de la mémoire du périphérique Neuron Trainium
trn.neuron_device_total_memory_usage) à cette métrique.
Répartition de l’utilisation de la mémoire hôte de Trainium :
- Mémoire de l’application (
trn.host_total_memory_usage.application_memory) : mémoire utilisée par l’application. - Constantes (
trn.host_total_memory_usage.constants) : mémoire utilisée pour les constantes. - Tampons DMA (
trn.host_total_memory_usage.dma_buffers) : mémoire utilisée pour les tampons d’accès direct à la mémoire. - Tenseurs (
trn.host_total_memory_usage.tensors) : mémoire utilisée pour les tenseurs.
Répartition de l’utilisation de la mémoire des NeuronCore Trainium
- Constantes (
trn.{core_index}.neuroncore_memory_usage.constants) - Code du modèle (
trn.{core_index}.neuroncore_memory_usage.model_code) - Zone de travail partagée du modèle (
trn.{core_index}.neuroncore_memory_usage.model_shared_scratchpad) - Mémoire d’exécution (
trn.{core_index}.neuroncore_memory_usage.runtime_memory) - Tenseurs (
trn.{core_index}.neuroncore_memory_usage.tensors)