AWS Inferentia

Obtenga un alto rendimiento al menor costo en Amazon EC2 para la inferencia de aprendizaje profundo e IA generativa

Introducción a los chips de AWS Inferentia con AWS Neuron

¿Por qué Inferentia?

Los chips de AWS Inferentia están diseñados por AWS para ofrecer un alto rendimiento al menor costo en Amazon EC2 para sus aplicaciones de inferencia de aprendizaje profundo (DL) e IA generativa.

El chip de AWS Inferentia de primera generación cuenta con las instancias Inf1 de Amazon Elastic Compute Cloud (Amazon EC2), que ofrecen un rendimiento hasta 2,3 veces mayor y un costo por inferencia hasta un 70 % menor que las instancias comparables de Amazon EC2. Muchos clientes, como Finch AI, Sprinklr, Money Forward y Amazon Alexa, adoptaron las instancias Inf1 y experimentaron sus beneficios de rendimiento y coste.

El chip AWS Inferentia2 ofrece un rendimiento hasta 4 veces mayor y una latencia hasta 10 veces menor en comparación con Inferentia. Las instancias Inf2 de Amazon EC2 basadas en Inferentia2 están optimizadas para implementar modelos cada vez más complejos, como modelos de lenguaje de gran tamaño (LLM) y modelos de difusión latente, a escala. Las instancias Inf2 son las primeras instancias optimizadas para la inferencia en Amazon EC2 que admiten la inferencia distribuida a escala con una conectividad de altísima velocidad entre los chips. Muchos clientes, incluidos Leonardo.ai, Deutsche Telekom y Qualtrics, han adoptado las instancias de Inf2 para sus aplicaciones de DL e IA generativa.

El SDK de AWS Neuron ayuda a los desarrolladores a implementar modelos en los chips de AWS Inferentia (y a entrenarlos en los chips de AWS Trainium). Se integra de forma nativa con marcos populares, como PyTorch y TensorFlow, para que pueda continuar utilizando su código y los flujos de trabajo existentes y ejecutarlos en los chips de Inferentia.

Ventajas de usar AWS Inferentia

Optimizado para un alto rendimiento y una baja latencia

Cada chip Inferentia de primera generación tiene cuatro NeuronCores de primera generación y cada instancia Inf1 de EC2 tiene hasta 16 chips Inferentia. Cada chip Inferentia2 tiene dos NeuronCores de segunda generación y cada instancia Inf2 de EC2 tiene hasta 12 chips Inferentia2. Cada chip Inferentia2 admite hasta 190 teraoperaciones de coma flotante por segundo (TFLOPS) de rendimiento FP16. La primera generación de Inferentia tiene 8 GB de memoria DDR4 por chip y también cuenta con una gran cantidad de memoria en el chip. Inferentia2 ofrece 32 GB de HBM por chip, lo que aumenta 4 veces la memoria total y 10 veces el ancho de banda de la memoria con respecto a Inferentia.

Soporte nativo para marcos de trabajo de ML

El SDK de AWS Neuron se integra de forma nativa con marcos de trabajo de ML populares como PyTorch y TensorFlow. Con AWS Neuron, puede usar estos marcos para implementar de manera óptima modelos de DL en ambos chips de AWS Inferentia, y Neuron está diseñado para minimizar los cambios en el código y la vinculación a soluciones específicas del proveedor. Neuron le ayuda a ejecutar sus aplicaciones de inferencia para la comprensión o el procesamiento de lenguaje natural (NLP), la traducción de idiomas, el resumen de textos, la generación de videos e imágenes, el reconocimiento de voz, la personalización, la detección de fraudes, y mucho más, en chips de Inferentia.

Amplia gama de tipos de datos con casting automático

La primera generación de Inferentia admite tipos de datos FP16, BF16 e INT8. Inferentia2 agrega soporte adicional para FP32, TF32 y el nuevo tipo de datos FP8 configurable (cFP8) a fin de proporcionar a los desarrolladores más flexibilidad para optimizar el rendimiento y precisión. AWS Neuron toma modelos FP32 de alta precisión y los convierte de forma automática en tipos de datos de menor precisión, al tiempo que optimiza la precisión y el rendimiento. La difusión automática reduce el tiempo de comercialización al eliminar la necesidad de un reentrenamiento de menor precisión.

Capacidades de aprendizaje profundo de última generación

Inferentia2 agrega optimizaciones de hardware para tamaños de entrada dinámicos y operadores personalizados escritos en C++. También admite el redondeo estocástico, una forma de redondear probabilísticamente que permite un alto rendimiento y una mayor precisión en comparación con los modos de redondeo heredados.

Creado para la sostenibilidad

Las instancias de Inf2 ofrecen hasta un 50 % más de rendimiento por vatio en comparación con las instancias de Amazon EC2, ya que tanto ellas como los chips subyacentes de Inferentia2 están diseñados para ejecutar modelos de aprendizaje profundo a escala. Con las instancias de Inf2 podrá alcanzar sus objetivos de sostenibilidad cuando implemente modelos ultragrandes.

Videos

Una mirada al detrás de escena de la infraestructura de IA generativa en Amazon

Presentamos las instancias Inf2 de Amazon EC2 con tecnología de AWS Inferentia2

Cómo cuatro clientes de AWS redujeron los costos de ML e impulsaron la innovación con AWS Inferentia

Recursos

Fine-tune and deploy Llama 2 models cost-effectively in Amazon SageMaker JumpStart with AWS Inferentia and AWS Trainium

Fine-tune Llama 2 using QLoRA and Deploy it on Amazon SageMaker with AWS Inferentia2

Maximize Stable Diffusion performance and lower inference costs with AWS Inferentia2

Achieve high performance with lowest cost for generative AI inference using AWS Inferentia2 and AWS Trainium on Amazon SageMaker

ByteDance saves up to 60% on inference costs while reducing latency and increasing throughput using AWS Inferentia

How Amazon Search reduced ML inference costs by 85% with AWS Inferentia

Additional resources

Use AWS Neuron and get started with AWS Inferentia from within TensorFlow, PyTorch, or MXNet

Más información

Additional resources

Hoja de ruta de AWS Neuron

Más información

Additional resources

Get started with inference on AWS Inferentia using these easy tutorials

Más información

Comience a utilizar AWS Inferentia

Comenzar a crear en la consola

Muestras y tutoriales de inferencia (Inf2/Trn1)

Más información