¿Por qué Inferentia?
Los aceleradores de AWS Inferentia están diseñados por AWS para ofrecer un alto rendimiento al menor costo en Amazon EC2 para sus aplicaciones de inferencia de aprendizaje profundo (DL) e IA generativa.
El acelerador de AWS Inferentia de primera generación cuenta con las instancias Inf1 de Amazon Elastic Compute Cloud (Amazon EC2), que ofrecen un rendimiento hasta 2,3 veces mayor y un costo por inferencia hasta un 70 % menor que las instancias comparables de Amazon EC2. Muchos clientes, como Finch AI, Sprinklr, Money Forward y Amazon Alexa, adoptaron las instancias Inf1 y experimentaron sus beneficios de rendimiento y coste.
El acelerador de AWS Inferentia2 ofrece un rendimiento hasta 4 veces mayor y una latencia hasta 10 veces menor en comparación con Inferentia. Las instancias Inf2 de Amazon EC2 basadas en Inferentia2 están optimizadas para implementar modelos cada vez más complejos, como modelos de lenguaje de gran tamaño (LLM) y modelos de difusión latente, a escala. Las instancias Inf2 son las primeras instancias optimizadas para la inferencia en Amazon EC2 que admiten la inferencia distribuida a escala con una conectividad de altísima velocidad entre los aceleradores. Muchos clientes, incluidos Leonardo.ai, Deutsche Telekom y Qualtrics, han adoptado las instancias de Inf2 para sus aplicaciones de DL e IA generativa.
El SDK de AWS Neuron ayuda a los desarrolladores a implementar modelos en los aceleradores de AWS Inferentia (y a entrenarlos en los aceleradores de AWS Trainium). Se integra de forma nativa con marcos populares, como PyTorch y TensorFlow, para que pueda continuar utilizando su código y flujos de trabajo existentes y ejecutarlos en los aceleradores de Inferentia.