UltraClusters de Amazon EC2

Ejecute aplicaciones de HPC y ML a escala

¿Por qué elegir UltraClusters de Amazon EC2?

Los UltraClusters de Amazon Elastic Compute Cloud (Amazon EC2) pueden ayudarlo a escalar a miles de GPU o aceleradores de ML personalizados, como AWS Trainium, para obtener acceso bajo demanda a una supercomputadora. Democratizan el acceso a un rendimiento de supercomputación para los desarrolladores de machine learning (ML), IA generativa y computación de alto rendimiento (HPC) mediante un modelo de uso simple de pago por uso sin costos de configuración o mantenimiento. Las instancias P5 de Amazon EC2, las instancias P4d de Amazon EC2 y las instancias Trn1 de Amazon EC2 se implementan en UltraClusters de Amazon EC2.

Los UltraClusters de EC2 constan de miles de instancias de EC2 aceleradas que se ubican en una zona de disponibilidad de AWS determinada y se interconectan mediante redes de Elastic Fabric Adapter (EFA) en una red sin bloqueos a escala de petabits. Los UltraClusters de EC2 también brindan acceso a Amazon FSx para Lustre, un almacenamiento compartido completamente administrado que se basa en el sistema de archivos paralelo de alto rendimiento más popular para procesar rápidamente conjuntos de datos masivos bajo demanda y a escala con latencias inferiores a los milisegundos. Los UltraClusters de EC2 brindan capacidades de escalado horizontal para el entrenamiento de ML distribuido y cargas de trabajo de HPC estrechamente acopladas.

Las instancias P5 y Trn1 de Amazon EC2 utilizan una arquitectura de UltraClusters de EC2 de segunda generación que proporciona una estructura de red que permite realizar menos saltos en el clúster, reducir la latencia y aumentar la escala.

Beneficios

Los UltraClusters de EC2 lo ayudan a reducir los tiempos de entrenamiento y el tiempo de creación de soluciones de semanas a solo unos pocos días. Esto lo ayuda a realizar iteraciones a un ritmo más rápido y a comercializar sus aplicaciones de aprendizaje profundo (DL), IA generativa y HPC con mayor rapidez.

Las instancias P5 se implementan en UltraClusters de EC2 con hasta 20 000 GPU H100 para ofrecer más de 20 exaflops de capacidad informática agregada. Del mismo modo, las instancias Trn1 se pueden escalar a 30 000 aceleradores Trainium y las instancias P4 se pueden escalar a 10 000 GPU A100 para ofrecer procesamiento a exaescala bajo demanda.

Los UltraClusters de EC2 son compatibles con una lista cada vez mayor de instancias de EC2 y le brindan la flexibilidad de elegir la opción de procesamiento adecuada para maximizar el rendimiento y, al mismo tiempo, mantener los costos de la carga de trabajo bajo control.

Características

Redes de alto rendimiento

Las instancias de EC2 implementadas en UltraClusters de EC2 están interconectadas con las redes EFA para mejorar el rendimiento de las cargas de trabajo de entrenamiento distribuido y las cargas de trabajo de HPC estrechamente acopladas. Las instancias P5 ofrecen hasta 3200 Gbps; las instancias Trn1 ofrecen hasta 1600 Gbps; y las instancias P4d ofrecen hasta 400 Gbps de redes EFA. EFA también se combina con NVIDIA GPUDirect RDMA (P5, P4d) y NeuronLink (Trn1) para permitir la comunicación de acelerador a acelerador de baja latencia entre servidores con omisión de sistema operativo.

Almacenamiento de alto rendimiento

Los UltraClusters de EC2 utilizan FSx para Lustre, un almacenamiento compartido completamente administrado que se basa en el sistema de archivos en paralelo de alto rendimiento más popular. Con FSx para Lustre, puede procesar rápidamente conjuntos de datos masivos bajo demanda y a escala y ofrecer latencias inferiores a los milisegundos. Las características de baja latencia y alto rendimiento de FSx para Lustre están optimizadas para las cargas de trabajo de DL, IA generativa y HPC en los UltraClusters de EC2. FSx para Lustre mantiene las GPU y los aceleradores de ML de UltraClusters de EC2 alimentados con datos, lo que acelera las cargas de trabajo más exigentes. Estas cargas de trabajo incluyen el entrenamiento de modelos de lenguaje de gran tamaño (LLM), la inferencia de la IA generativa, la DL, la genómica y la modelización de riesgos financieros. También puede acceder a un almacenamiento rentable prácticamente ilimitado con Amazon Simple Storage Service (Amazon S3).

Instancia compatible

Las instancias P5, con la tecnología de las GPU Tensor Core de NVIDIA H100, proporcionan el mayor rendimiento de Amazon EC2 para aplicaciones de HPC y entrenamiento de ML.

Más información

Las instancias P4d, con la tecnología de las GPU Tensor Core de NVIDIA A100, proporcionan un alto rendimiento para el entrenamiento de ML y las aplicaciones de HPC.

Más información

Las instancias Trn1, con la tecnología de los aceleradores de AWS Trainium, se crearon específicamente para el entrenamiento de ML de alto rendimiento. Ofrecen hasta un 50 % de ahorro en el costo del entrenamiento con respecto a otras instancias de Amazon EC2 comparables.

Más información