Amazon SageMaker HyperPod

Reduzca el tiempo que tarda en entrenar los modelos fundacionales hasta en un 40 % gracias a una infraestructura diseñada específicamente para el entrenamiento distribuido a escala

¿Qué es SageMaker HyperPod?

AmazonSageMaker HyperPod elimina el trabajo pesado e indiferenciado que implica crear y optimizar la infraestructura de machine learning (ML) para entrenar modelos fundacionales (FM), lo que reduce el tiempo de entrenamiento hasta un 40 %. SageMaker HyperPod viene preconfigurado con las bibliotecas de entrenamiento distribuidas de SageMaker, que permiten a los clientes dividir automáticamente las cargas de trabajo de formación en miles de aceleradores, de modo que las cargas de trabajo se puedan procesar en paralelo para mejorar el rendimiento del modelo. SageMaker HyperPod también garantiza que los clientes puedan continuar con el entrenamiento del FM sin interrupciones guardando puntos de control periódicamente. Cuando se produce una falla de hardware durante el entrenamiento, SageMaker HyperPod detecta automáticamente la falla, repara o reemplaza la instancia defectuosa y reanuda el entrenamiento desde el último punto de control guardado, lo que elimina la necesidad de que los clientes administren este proceso manualmente y les ayuda a entrenarse durante semanas o meses en un entorno distribuido sin interrupciones.

Beneficios de SageMaker HyperPod

Amazon SageMaker HyperPod viene preconfigurado con bibliotecas de entrenamiento distribuido de Amazon SageMaker, lo que permite dividir automáticamente sus modelos y conjuntos de datos de entrenamiento en instancias de clúster de AWS para ayudarlo a escalar de manera eficiente las cargas de trabajo de entrenamiento.
Las bibliotecas de entrenamiento distribuido de Amazon SageMaker optimizan su trabajo de formación para la infraestructura de red y la topología de clústeres de AWS mediante dos técnicas: el paralelismo de datos y el paralelismo de modelos. El paralelismo de modelos divide modelos demasiado grandes para caber en una sola GPU en partes más pequeñas antes de distribuirlos entre varias GPU para entrenarlos. El paralelismo de datos divide grandes conjuntos de datos para entrenarlos de forma simultánea con el fin de mejorar la velocidad de entrenamiento.
SageMaker HyperPod posibilita un entorno de entrenamiento más flexible al detectar, diagnosticar y recuperarse automáticamente de los errores, lo que permite entrenar de forma continua los modelos fundacionales durante meses sin interrupciones.

Bibliotecas de entrenamiento distribuidas y optimizadas

SageMaker HyperPod viene preconfigurado con bibliotecas distribuidas de SageMaker. Con solo unas pocas líneas de código, puede habilitar el paralelismo de datos en sus scripts de entrenamiento. SageMaker HyperPod ayuda a que el entrenamiento distribuido se lleve a cabo más rápido dividiendo automáticamente los modelos y los conjuntos de datos de entrenamiento entre las instancias de GPU de AWS.

Más información »

Comprobación de estado y reparación automáticas del estado del clúster

Si alguna instancia se vuelve defectuosa durante una carga de trabajo de entrenamiento, SageMaker HyperPod detecta e intercambia automáticamente los nodos defectuosos por otros en buen estado. Para detectar hardware defectuoso, SageMaker HyperPod ejecuta con regularidad una serie de comprobaciones de estado para comprobar la integridad de la red y la GPU. 

Depure y mejore el rendimiento del modelo

Puede utilizar herramientas de ML diseñadas específicamente en SageMaker HyperPod para mejorar el rendimiento del entrenamiento. Amazon SageMaker con TensorBoard ayuda a ahorrar tiempo de desarrollo mediante la visualización de la arquitectura del modelo para identificar y solucionar problemas de convergencia, como la pérdida de validación, la no convergencia o la desaparición de gradientes.

Más información »

Programación y orquestación de la carga de trabajo

La interfaz de usuario de SageMaker HyperPod es altamente personalizable con Slurm. Puede seleccionar e instalar los marcos o herramientas que necesite. Todos los clústeres se aprovisionan con el tipo y el número de instancias que elija, y se retienen para su uso en todas las cargas de trabajo.