Los nuevos Aceleradores AMD Instinct Serie MI200 brindan liderazgo en rendimiento de HPC e inteligencia artificial para impulsar sistemas de escala y más

AMD Logo

  • Con la nueva arquitectura AMD CDNA 2, los Aceleradores AMD Serie Instinct MI200 ofrecen una ventaja revolucionaria de 4.9x en el rendimiento de HPC1 en comparación con los aceleradores de centros de datos de la competencia, agilizando la ciencia y el descubrimiento
  • Los aceleradores de la serie MI200 son la primera GPU de múltiples matrices en admitir 128 GB de memoria HBM2e y ofrecen un impulso sustancial para las aplicaciones críticas para la base de la ciencia

Lima, 9 de noviembre, 2021 — AMD (NASDAQ: AMD) anunció los nuevos Aceleradores AMD Instinct Serie MI200, los primeros GPU de clase exaescala. Los Aceleradores AMD Instinct Serie MI200 incluyen el cómputo de alto rendimiento (HPC) más rápido del mundo y el Acelerador de inteligencia artificial (AI)1, el AMD Instinct MI250X.

Construidos sobre la arquitectura CDNA 2 de AMD, los Aceleradores Instinct Serie MI200 ofrecen un rendimiento de aplicaciones líder, para un amplio conjunto de cargas de trabajo de HPC. 2 El Acelerador AMD Instinct MI250X proporciona un rendimiento hasta 4.9 veces mayor en comparación con los aceleradores de la competencia, para aplicaciones HPC de doble precisión (FP64) y supera los 380 teraFLOPS de media precisión teórica máxima (FP16), para cargas de trabajo de IA que permitan enfoques disruptivos y una mayor aceleración investigaciones basadas en datos. 1

"Los Aceleradores AMD Instinct MI200 brindan liderazgo en rendimiento de HPC e IA, lo que ayuda a los científicos a dar saltos generacionales en la investigación, que pueden acortar drásticamente el tiempo entre la hipótesis inicial y el descubrimiento", dijo Forrest Norrod, vicepresidente senior y gerente general de Data Center y Embedded Solutions Business Group de AMD. "Con innovaciones clave en arquitectura, empaque y diseño de sistemas, los Aceleradores AMD Instinct Serie MI200 son las GPU de centro de datos más avanzadas de la historia, al proporcionar un rendimiento excepcional para que las supercomputadoras y los centros de datos resuelvan los problemas más complejos del mundo".

Exaescala con AMD

AMD, en colaboración con el Departamento de Energía de Estados Unidos, el Laboratorio Nacional de Oak Ridge y HPE, diseñaron la supercomputadora Frontier, que se espera ofrezca más de 1,5 exaFLOPS de potencia informática máxima. Con tecnología de CPU AMD EPYC de tercera generación optimizada y Aceleradores AMD Instinct MI250X, la Frontier traspasará los límites del descubrimiento científico al mejorar drásticamente el rendimiento de la inteligencia artificial, el análisis y la simulación a escala, lo que ayudará a los científicos a realizar más cálculos, identificar nuevos patrones en los datos y desarrollar métodos innovadores de análisis de datos que aceleren el ritmo de los descubrimientos científicos.

“La supercomputadora Frontier, es la culminación de una sólida colaboración entre AMD, HPE y el Departamento de Energía de Estados Unidos, para proporcionar un sistema con capacidad de exaescala, que traspase los límites del descubrimiento científico al mejorar drásticamente el rendimiento de la inteligencia artificial, el análisis y la simulación a escala”, dijo Thomas Zacharia, director del Laboratorio Nacional de Oak Ridge.

Impulsando el Futuro de HPC

Los Aceleradores AMD Instinct Serie MI200 combinados con CPU AMD EPYC de tercera generación, y la plataforma de software abierto ROCm 5.0, están diseñados para impulsar nuevos descubrimientos para la era de la exaescala, para abordar los desafíos más urgentes de la actualidad: desde el cambio climático hasta la investigación de vacunas.

Características y capacidades clave de los Aceleradores AMD Instinct Serie MI200:

  • Arquitectura CDNA 2: núcleos de matriz de segunda generación que aceleran las operaciones de la matriz FP64 y FP32 y ofrecen hasta 4 veces el rendimiento teórico máximo de FP64, en comparación con las GPU de generación anterior de AMD. [i],3,4
  • Tecnología líder de empaquetado: el primer diseño de GPU de múltiples troqueles de la industria con tecnología 2.5D Elevated Fanout Bridge (EFB) que ofrece 1.8 veces más núcleos, y un ancho de banda de memoria 2.7 veces mayor en comparación con las GPU de generaciones anteriores de AMD, lo que ofrece el mejor ancho de banda de memoria teórico máximo agregado de la industria, a 3,2 terabytes por segundo. 4,5,6
  • Tecnología AMD Infinity Fabric de tercera generación: hasta 8 enlaces Infinity Fabric conectan el AMD Instinct MI200 con CPU EPYC de tercera generación y otras GPU en el nodo, para permitir la coherencia unificada de la memoria CPU / GPU y maximizar el rendimiento del sistema, facilitando la rampa para códigos de CPU para aprovechar el poder de los aceleradores.

Software para habilitar la ciencia a exaescala

AMD ROCm es la plataforma de software abierto que permite a los investigadores aprovechar el poder de los aceleradores AMD Instinct para impulsar descubrimientos científicos. Esta plataforma está construida sobre la base de la portabilidad abierta, que admite entornos de múltiples proveedores y arquitecturas de aceleradores. Con ROCm 5.0, AMD amplía su plataforma abierta, impulsando las mejores aplicaciones de HPC e IA con Aceleradores AMD Instinct Serie MI200, aumentando la accesibilidad de ROCm para los desarrolladores y brindando un rendimiento de liderazgo en las cargas de trabajo clave.

A través de AMD Infinity Hub, los investigadores, científicos de datos y usuarios finales pueden encontrar, descargar e instalar fácilmente aplicaciones de HPC en contenedores y marcos de ML, optimizados y compatibles con los Aceleradores AMD Instinct y ROCm. Actualmente, Hub ofrece una gama de contenedores que admiten Aceleradores Radeon Instinct MI50, AMD Instinct MI100 o AMD Instinct MI200, incluidas varias aplicaciones como Chroma, CP2k, LAMMPS, NAMD, OpenMM, además de los populares frameworks ML TensorFlow y PyTorch. Se agregarán nuevos contenedores al concentrador continuamente. Continuamente se agregan nuevos contenedores al Hub.

Soluciones de Servidores Disponibles

Los aceleradores AMD Instinct MI250X y el AMD Instinct MI250 están disponibles en el módulo acelerador de cómputo de hardware abierto, o en el factor de forma del módulo acelerador OCP (OAM). El AMD Instinct MI210 estará disponible en un factor de forma de tarjeta PCIe en servidores OEM.

El Acelerador AMD MI250X está disponible actualmente en la supercomputadora HPE Cray EX, y se espera agregar adicionales Aceleradores AMD Instinct Serie MI200 en los sistemas de los principales socios OEM y ODM, en los mercados empresariales durante el primer trimestre de 2022, incluyendo ASUS, ATOS, Dell Technologies, Gigabyte, Hewlett Packard Enterprise (HPE), Lenovo, Penguin Computing y Supermicro.T

Especificaciones de las Series MI200

Modelos

Unidades

Procesadores de flujo

FP64 | FP32 Vector (Pico)

FP64 | FP32 Matriz (Pico)

FP16 | bf16

(Pico)

INT4 | INT8

(Pico)

MemoriaHBM2e
ECC

Memoria de Ancho de Banda

Factor de forma

AMD Instinct MI250x

220

14,080

Hasta 47.9 TF

Hasta 95.7 TF

Hasta 383.0 TF

Hasta 383.0

Máximo

128GB

3.2 TB/seg

Módulo Acelerador OCP

AMD Instinct MI250

208

13,312

Hasta 45.3 TF

Hasta 90.5 TF

Hasta 362.1 TF

Hasta 362.1 Máximo

128GB

3.2 TB/seg

Módulo Acelerador OCP

Recursos de Soporte

 ______________________________________________

  1. La GPU de centro de datos más rápida del mundo es AMD Instinct ™ MI250X. Los cálculos realizados por AMD Performance Labs al 15 de septiembre de 2021 para el acelerador AMD Instinct ™ MI250X (módulo HBM2e OAM de 128 GB) a un reloj de motor de aumento de pico de 1.700 MHz dieron como resultado una precisión doble teórica máxima de 95.7 TFLOPS (matriz FP64), 47.9 TFLOPS pico teórico precisión doble (FP64), matriz de precisión simple teórica máxima de 95,7 TFLOPS (matriz FP32), precisión simple teórica máxima de 47,9 TFLOPS (FP32), precisión media teórica máxima de 383,0 TFLOPS (FP16) y precisión de formato Bfloat16 máxima teórica de 383,0 TFLOPS (BF16) flotante -punto de rendimiento. Los cálculos realizados por AMD Performance Labs a partir del 18 de septiembre de 2020 para el acelerador AMD Instinct ™ MI100 (tarjeta HBM2 PCIe® de 32 GB) a un reloj de motor de impulso de pico de 1,502 MHz dieron como resultado 11,54 TFLOPS de precisión máxima teórica doble (FP64), 46,1 TFLOPS máxima teórica simple matriz de precisión (FP32), 23,1 TFLOPS máxima precisión teórica simple (FP32), 184,6 TFLOPS máxima precisión teórica media (FP16) rendimiento de punto flotante. Los resultados publicados sobre el acelerador de GPU NVidia Ampere A100 (80GB), aumento del reloj del motor de 1410 MHz, resultaron en núcleos tensor de doble precisión pico de 19,5 TFLOPS (FP64 Tensor Core), 9,7 TFLOPS de precisión máxima de doble precisión (FP64). 19.5 TFLOPS pico de precisión simple (FP32), 78 TFLOPS pico de precisión media (FP16), 312 TFLOPS pico de precisión media (FP16 Tensor Flow), 39 TFLOPS pico Bfloat 16 (BF16), 312 TFLOPS pico Bfloat16 formato de precisión (BF16 Tensor Flow), rendimiento teórico de punto flotante. El formato de datos TF32 no es compatible con IEEE y no se incluye en esta comparación. https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/nvidia-ampere-architecture-whitepaper.pdf, página 15, Tabla 1. MI200-01
  2. La aplicación del acelerador AMD Instinct MI250X y el rendimiento de referencia se pueden encontrar en https://www.amd.com/en/graphics/server-accelerators-benchmarks.
  3. Los cálculos realizados por AMD Performance Labs al 15 de septiembre de 2021 para el acelerador AMD Instinct ™ MI250X (módulo HBM2e OAM de 128 GB) a un reloj de motor de aumento de pico de 1.700 MHz dieron como resultado una matriz de doble precisión máxima de 95,7 TFLOPS (matriz FP64) teórica, flotante -punto de rendimiento. Los resultados publicados sobre el acelerador de GPU NVidia Ampere A100 (80GB) dieron como resultado un rendimiento teórico de punto flotante de doble precisión máxima de 19,5 TFLOPS (FP64 Tensor Core). Resultados encontrados en: https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/nvidia-ampere-architecture-whitepaper.pdf, page 15, Table 1.MI200-02
  4. Los cálculos realizados por AMD Performance Labs al 21 de septiembre de 2021 para los aceleradores OAM AMD Instinct ™ MI250X y MI250 (128 GB HBM2e) diseñados con la tecnología de proceso AMD CDNA ™ 2 6nm FinFet a 1600 MHz de reloj de memoria máximo dieron como resultado una memoria HBM2e de 128 GB capacidad y rendimiento máximo teórico de ancho de banda de memoria de 3.2768 TFLOPS. La interfaz del bus de memoria MI250 / MI250X es de 4096 bits multiplicado por 2 y la velocidad de datos de la memoria es de 3,20 Gbps para un ancho de banda de memoria total de 3,2768 TB / s ((3,20 Gbps * (4096 bits * 2)) / 8). El acelerador de GPU NVidia Ampere A100 (80GB) SXM resultó en una capacidad de memoria HBM2e de 80GB y un rendimiento de ancho de banda de memoria de GPU de 2.039 TB / s. https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/a100/pdf/nvidia-a100-datasheet-us-nvidia-1758950-r4-web.pdf MI200-07
  5. El acelerador AMD Instinct ™ MI250X tiene 220 unidades de cómputo (CU) y 14.080 núcleos de flujo. El acelerador AMD Instinct ™ MI100 tiene 120 unidades de cómputo (CU) y 7680 núcleos de flujo. MI200-027
  6. Los cálculos realizados por AMD Performance Labs al 21 de septiembre de 2021 para los aceleradores OAM AMD Instinct ™ MI250X y MI250 (128GB HBM2e) diseñados con la tecnología de proceso AMD CDNA ™ 2 6nm FinFet a 1.600 MHz de reloj de memoria pico dieron como resultado un pico de 3.2768 TFLOPS rendimiento teórico del ancho de banda de la memoria. La interfaz de bus de memoria MI250 / MI250X es de 4096 bits multiplicado por 2 y la velocidad de datos de la memoria es de 3,20 Gbps para un ancho de banda de memoria total de 3,2768 TB / s ((3,20 Gbps * (4096 bits * 2)) / 8). Los cálculos realizados por AMD Performance Labs a partir del 5 de octubre de 2020 para el acelerador AMD Instinct ™ MI100 diseñado con la tecnología de proceso AMD CDNA FinFET de 7 nm a 1200 MHz de reloj de memoria máxima dieron como resultado un rendimiento máximo de ancho de banda de memoria teórico de 1,2288 TFLOPS. La interfaz del bus de memoria MI100 es de 4096 bits y la velocidad de datos de la memoria es de 2,40 Gbps para un ancho de banda de memoria total de 1,2288 TB / s ((2,40 Gbps * 4096 bits) / 8) MI200-33