¿Qué es SageMaker HyperPod?
Amazon SageMaker HyperPod elimina el trabajo pesado e indiferenciado que implica crear y optimizar la infraestructura de machine learning (ML). Está preconfigurado con las bibliotecas de entrenamiento distribuidas de SageMaker, que dividen automáticamente las cargas de trabajo de entrenamiento en miles de aceleradores de IA, de modo que las cargas de trabajo se puedan procesar en paralelo para mejorar el rendimiento del modelo. SageMaker HyperPod garantiza un entrenamiento de FM ininterrumpido al guardar periódicamente los puntos de control. Detecta de forma automática un error de hardware cuando ocurre, repara o reemplaza la instancia con errores y reanuda el entrenamiento desde el último punto de control guardado, por lo que ya no es necesario administrar este proceso de forma manual. El entorno flexible le permite entrenar modelos durante semanas o meses en un entorno distribuido sin interrupciones, por lo que se ahorra hasta un 40 % en tiempo de entrenamiento. SageMaker HyperPod también es altamente personalizable, lo que le permite ejecutar y escalar de manera eficiente las cargas de trabajo de FM y compartir con facilidad la capacidad de computación entre diferentes cargas de trabajo, desde el entrenamiento a gran escala hasta la inferencia.
Beneficios de SageMaker HyperPod
Bibliotecas de entrenamiento distribuido de alto rendimiento
Con las bibliotecas de entrenamiento distribuido de SageMaker, puede ejecutar datos personalizados con un alto nivel de escalabilidad y rentabilidad en paralelo y modelar trabajos de entrenamiento de aprendizaje profundo en paralelo. SageMaker HyperPod viene preconfigurado con bibliotecas distribuidas de SageMaker. Con solo unas pocas líneas de código, puede habilitar el paralelismo de datos en sus scripts de entrenamiento. SageMaker HyperPod ayuda a que el entrenamiento distribuido se lleve a cabo más rápido dividiendo automáticamente los modelos y los conjuntos de datos de entrenamiento entre las instancias de GPU de AWS.
Comprobación de estado y reparación automáticas del estado del clúster
Si alguna instancia se vuelve defectuosa durante una carga de trabajo de entrenamiento, SageMaker HyperPod detecta e intercambia automáticamente los nodos defectuosos por otros en buen estado. Para detectar hardware defectuoso, SageMaker HyperPod ejecuta con regularidad una serie de comprobaciones de estado para comprobar la integridad de la red y la GPU.
Programación y orquestación de la carga de trabajo
La interfaz de usuario de SageMaker HyperPod es altamente personalizable con Slurm o Amazon EKS. Puede seleccionar e instalar los marcos o herramientas que necesite. Todos los clústeres se aprovisionan con el tipo y el número de instancias que elija, y se retienen para su uso en todas las cargas de trabajo.
Escalabilidad y uso optimizado de los recursos
Puede administrar y operar los clústeres de SageMaker HyperPod con una experiencia de administrador coherente basada en Kubernetes. Esto le permite ejecutar y escalar de manera eficiente las cargas de trabajo de FM, desde el entrenamiento, el ajuste y la experimentación hasta la inferencia. Puede compartir con facilidad la capacidad de procesamiento y cambiar entre Slurm y EKS para diferentes tipos de cargas de trabajo.
Observabilidad avanzada para mejorar el rendimiento
Puede utilizar las herramientas de ML integradas en SageMaker HyperPod para mejorar el rendimiento del modelo. Por ejemplo, Amazon SageMaker con TensorBoard ayuda a ahorrar tiempo de desarrollo al visualizar la arquitectura del modelo para identificar y solucionar los problemas de convergencia, y el Depurador de Amazon SageMaker captura las métricas y perfila los trabajos de entrenamiento en tiempo real. La integración con Información de contenedores de Amazon CloudWatch proporciona información más detallada sobre el rendimiento, el estado y la utilización de los clústeres.