Las instancias de AWS Trainium2 ya disponibles
Las nuevas instancias Amazon EC2 Trn2, que cuentan con el más reciente chip Trainium2 de AWS, ofrecen un rendimiento de precio entre un 30% y un 40% superior en comparación con la generación actual de instancias EC2 basadas en GPU
Los nuevos Trn2 UltraServers utilizan la interconexión ultrarrápida NeuronLink para conectar cuatro servidores Trn2 y formar un único servidor gigante, lo que permite el entrenamiento e inferencia más rápidos en AWS para los modelos más grandes del mundo
LAS VEGAS— diciembre de 2024—En AWS re:Invent, Amazon Web Services, Inc. (AWS), una empresa de Amazon.com, Inc. (NASDAQ: AMZN), anunció la disponibilidad general de las instancias de Amazon Elastic Compute Cloud (Amazon EC2) impulsadas por AWS Trainium2. Además, presentó los nuevos Trn2 UltraServers, que permiten a los clientes entrenar e implementar los últimos modelos de IA actuales, así como los futuros modelos de lenguaje de gran tamaño (LLM, su sigla en inglés) y modelos fundacionales (FM, su sigla en inglés) con niveles excepcionales de rendimiento y rentabilidad. Finalmente, reveló los chips Trainium3 de próxima generación.
- Las instancias Trn2 ofrecen un rendimiento de precio entre un 30% y un 40% superior en comparación con la generación actual de instancias EC2 P5e y P5en basadas en GPU, y cuentan con 16 chips Trainium2 para proporcionar 20,8 petaflops picos de cómputo, lo que las hace ideales para entrenar y desplegar LLM con miles de millones de parámetros;
- Los Amazon EC2 Trn2 UltraServers son una oferta completamente nueva de EC2 que presenta 64 chips Trainium2 interconectados, utilizando la interconexión ultra rápida NeuronLink, para escalar hasta 83,2 petaflops picos de cómputo, cuatriplicando el cómputo, la memoria y la conectividad de una sola instancia. Esto hace posible entrenar y desplegar los modelos más grandes del mundo;
- Junto con Anthropic, AWS está construyendo un EC2 UltraCluster de Trn2 UltraServers, denominado Proyecto Rainier, que contiene cientos de miles de chips Trainium2 y más de cinco veces la cantidad de exaflops utilizados para entrenar su generación actual de modelos de IA líderes;
- AWS presentó el Trainium3, su chip de IA de próxima generación, que permitirá a los clientes construir modelos más grandes de manera más rápida y ofrecer un rendimiento superior en tiempo real al desplegarlos.
“Trainium2 está diseñado específicamente para admitir las cargas de trabajo de IA generativa más grandes y avanzadas, tanto para entrenamiento como para inferencia, y ofrecer el mejor rendimiento de precio en AWS,” dijo David Brown, vicepresidente de Cómputo y Redes en AWS. “Con modelos que se acercan a los billones de parámetros, entendemos que los clientes también necesitan un enfoque innovador para entrenar y ejecutar estas enormes cargas de trabajo. Los nuevos Trn2 UltraServers ofrecen el rendimiento más rápido de entrenamiento e inferencia en AWS y ayudan a organizaciones de todos los tamaños a entrenar y desplegar los modelos más grandes del mundo más rápidamente y a un costo menor.”
A medida que los modelos crecen en tamaño, están llevando al límite la infraestructura de cómputo y redes, ya que los clientes buscan reducir los tiempos de entrenamiento y la latencia de inferencia—el tiempo entre cuando un sistema de IA recibe una entrada y genera la salida correspondiente. AWS ya ofrece la selección más amplia y profunda de instancias EC2 aceleradas para IA y ML, incluidas aquellas impulsadas por GPU y chips de ML. Sin embargo, incluso con las instancias aceleradas más rápidas disponibles hoy, los clientes desean más rendimiento y escalabilidad para entrenar estos modelos cada vez más sofisticados más rápidamente y a un costo más bajo. A medida que la complejidad de los modelos y el volumen de datos crecen, simplemente aumentar el tamaño del clúster no mejora los tiempos de entrenamiento debido a las limitaciones de paralelización. Al mismo tiempo, las demandas de la inferencia en tiempo real superan las capacidades de las arquitecturas de instancia única.
Trn2 es la instancia de Amazon EC2 de mejor rendimiento para aprendizaje profundo e IA generativa
Trn2 ofrece un rendimiento de precio entre un 30% y un 40% superior en comparación con la generación actual de instancias EC2 basadas en GPU. Una sola instancia de Trn2 combina 16 chips Trainium2 interconectados con una interconexión de chip a chip de baja latencia y alto ancho de banda NeuronLink ultrarrápida para proporcionar 20,8 petaflops picos de cómputo, ideal para entrenar e implementar modelos que tienen miles de millones de parámetros.
Trn2 UltraServers satisfacen las necesidades crecientes de cómputo de IA de los modelos más grandes del mundo
Para los modelos más grandes que requieren aún más cómputo, los Trn2 UltraServers permiten a los clientes escalar el entrenamiento más allá de los límites de una sola instancia de Trn2, reduciendo el tiempo de entrenamiento, acelerando el tiempo de lanzamiento al mercado y habilitando iteraciones rápidas para mejorar la precisión del modelo. Los Trn2 UltraServers son una oferta EC2 completamente nueva que utiliza interconexión NeuronLink ultrarrápida para conectar cuatro servidores Trn2 en un servidor gigante. Con los nuevos Trn2 UltraServers, los clientes pueden escalar sus cargas de trabajo de IA generativa a través de 64 chips Trainium2. Para las cargas de trabajo de inferencia, los clientes pueden usar los Trn2 UltraServers para mejorar el rendimiento de inferencia en tiempo real de modelos de billones de parámetros en producción. Junto con Anthropic, AWS está construyendo un EC2 UltraCluster de Trn2 UltraServers, llamado Proyecto Rainier, que escalará el entrenamiento distribuido de modelos a través de cientos de miles de chips Trainium2 interconectados con una red Elastic Fabric Adapter (EFA) de tercera generación, de baja latencia y escala petabit. Esto será más de cinco veces la cantidad de exaflops que Anthropic utilizó para entrenar su generación actual de modelos de IA líderes. Cuando se complete, se espera que sea el clúster de cómputo de IA más grande del mundo disponible hasta la fecha para que Anthropic construya y despliegue sus futuros modelos.
Anthropic es una empresa de seguridad e investigación en IA que crea sistemas de IA confiables, interpretables y dirigibles. El producto principal de Anthropic es Claude, un LLM confiable utilizado por millones de usuarios en todo el mundo. Como parte de la colaboración ampliada de Anthropic con AWS, han comenzado a optimizar los modelos Claude para que funcionen en Trainium2, el hardware de IA más avanzado de Amazon hasta la fecha. Anthropic utilizará cientos de miles de chips Trainium2, más de cinco veces el tamaño de su clúster anterior, para ofrecer un rendimiento excepcional para los clientes que utilizan Claude en Amazon Bedrock.
Mosaic AI de Databricks permite a las organizaciones desarrollar y desplegar sistemas de agentes de alta calidad. Está construido de forma nativa sobre el data lakehouse, lo que permite a los clientes personalizar fácilmente y de forma segura sus modelos con datos empresariales, proporcionando resultados más precisos y específicos para cada dominio. Gracias al alto rendimiento y la rentabilidad de Trainium, los clientes pueden escalar el entrenamiento de modelos en Mosaic AI a un bajo costo.
La disponibilidad de Trainium2 será un beneficio importante para Databricks y sus clientes, ya que la demanda de Mosaic AI continúa aumentando en todos los segmentos de clientes y en todo el mundo. Databricks, una de las empresas de datos e IA más grandes del mundo, planea usar Trn2 para ofrecer mejores resultados y reducir el costo total de propiedad (TCO, su sigla en inglés) hasta en un 30% para sus clientes.
Hugging Face es la plataforma abierta líder para creadores de IA, con más de 2 millones de modelos, conjuntos de datos y aplicaciones de IA compartidos por una comunidad de más de 5 millones de investigadores, científicos de datos, ingenieros de machine learning y desarrolladores de software. Hugging Face ha colaborado con AWS durante los últimos años, facilitando que los desarrolladores experimenten los beneficios de rendimiento y costo de AWS Inferentia y Trainium a través de la biblioteca de código abierto Optimum Neuron, integrada en los Inference Endpoints de Hugging Face y ahora optimizada dentro del nuevo servicio de despliegue autónomo HUGS, disponible en AWS Marketplace. Con el lanzamiento de Trainium2, los usuarios de Hugging Face tendrán acceso a un rendimiento aún mayor para desarrollar e implementar modelos más rápido.
poolside está lista para construir un mundo donde la IA impulse la mayoría del trabajo económicamente valioso y el progreso científico. poolside cree que el desarrollo de software será la primera gran capacidad en redes neuronales que alcanzará la inteligencia a nivel humano. Para habilitar eso, ellos están construyendo los FM, una API y un asistente para llevar el poder de la IA generativa a las manos de los desarrolladores. Un factor clave para habilitar esta tecnología es la infraestructura que están utilizando para construir y ejecutar sus productos. Con AWS Trainium2, los clientes de poolside podrán escalar su uso con una relación rendimiento-precio inigualable por otros aceleradores de IA. Además, poolside planea entrenar futuros modelos con Trn2 UltraServers, con un ahorro estimado en un 40% en comparación con las instancias EC2 P5.
Chips Trainium3: diseñados para satisfacer las necesidades de alto rendimiento en la próxima frontera de cargas de trabajo de IA generativa
AWS presentó Trainium3, su chip de entrenamiento de IA de próxima generación. Trainium3 será el primer chip de AWS fabricado con un nodo de proceso de 3 nanómetros, estableciendo un nuevo estándar en rendimiento, eficiencia energética y densidad. Se espera que los UltraServers impulsados por Trainium3 ofrezcan un rendimiento cuatro veces mayor que los UltraServers Trn2, permitiendo a los clientes iterar más rápidamente al desarrollar modelos y ofrecer un rendimiento superior en tiempo real durante su implementación. Las primeras instancias basadas en Trainium3 estarán disponibles a finales de 2025.
Permitiendo a los clientes aprovechar el rendimiento de Trainium2 con el software AWS Neuron
El SDK de Neuron incluye un compilador, bibliotecas de ejecución y herramientas para ayudar a los desarrolladores a optimizar sus modelos para ejecutarse en Trainium. Proporciona a los desarrolladores la capacidad de ajustar modelos para obtener el máximo rendimiento en chips Trainium. Neuron está integrado de forma nativa con marcos populares como JAX y PyTorch, permitiendo a los clientes continuar utilizando su código y flujos de trabajo existentes en Trainium con menos cambios. Además, Neuron es compatible con más de 100.000 modelos del hub de modelos de Hugging Face. Con la Interfaz de Kernel de Neuron (NKI, su sigla en inglés), los desarrolladores obtienen acceso directo a los chips Trainium, lo que les permite escribir núcleos de cómputo (kernel) que maximizan el rendimiento para cargas de trabajo exigentes.
El software Neuron está diseñado para facilitar el uso de marcos populares como JAX para entrenar y desplegar modelos en Trainium2, minimizando los cambios en el código y la dependencia de soluciones específicas de proveedores. Google respalda los esfuerzos de AWS para permitir que los clientes usen JAX en el entrenamiento e inferencia a gran escala a través de su integración nativa con OpenXLA, proporcionando a los usuarios una vía de codificación fácil y portátil para comenzar rápidamente con las instancias Trn2. Gracias a la colaboración de código abierto en toda la industria y la disponibilidad de Trainium2, Google espera una mayor adopción de JAX dentro de la comunidad de ML, lo que representa un hito significativo para todo ese ecosistema.
Las instancias Trn2 están disponibles hoy en día en la región de AWS del este de EE. UU. (Ohio) y pronto estarán disponibles en otras regiones. Los UltraServers Trn2 están disponibles en versión preliminar.