MoonMath AI Lanza Kernel de Atención para MI300X con Rendimiento Superior

Segun MarkTechPost (AI/ML News), el equipo de MoonMath AI ha publicado un kernel de atención en precisión bf16, diseñado específicamente para la GPU AMD MI300X. El código, desarrollado en el lenguaje HIP y bajo licencia MIT, no emplea ensamblador manual, sino que aprovecha el entorno de compilación para optimizar el rendimiento. Este kernel supera en todas las configuraciones evaluadas al propio kernel AITER v3 de AMD, el cual es parte de la infraestructura de optimización oficial de la empresa. Los resultados indican un aumento medio de hasta 1.26 veces en eficiencia, con factores de aceleración de 1.18, 1.15 y 1.08 en diferentes modos de redondeo. La implementación se basa en un mecanismo innovador: envolventes de ensamblador de una instrucción que permiten seleccionar el código de operación, mientras el compilador gestiona la asignación de registros.

La mayor parte del avance se debe a la estrategia de ubicación en memoria: la matriz K se almacena en el espacio de datos (LDS), el vector V se coloca en la caché L1, y las matrices Q y los acumuladores se mantienen en registros. Este diseño permite una gestión eficiente de la carga de datos, reduciendo latencias y mejorando el acceso directo a los núcleos. El kernel solo opera en la arquitectura CDNA3 de AMD, con soporte exclusivo para la instrucción ISA gfx942. Los parámetros técnicos son estrictos: el tamaño fijo de la dimensión de cabeza es de 128, el modelo soporta cualquier longitud de secuencia, incluyendo atención cruzada, pero carece de funcionalidades como máscara causal, atención de grupo variable (GQA) o procesamiento de longitudes variables. Los resultados numéricos son altamente precisos, con cada salida dentro de un solo ULP (unidad en punto flotante) de AITER, y el manejo de valores NaN e Inf es idéntico entre ambos.

El avance tiene aplicaciones directas en el ámbito de modelos de generación de imágenes. Un ejemplo práctico fue el uso de este kernel para acelerar el proceso de difusión en el modelo Wan2.1, mejorando su rendimiento en un 1.23%, sin comprometer la calidad visual. Este tipo de avances en software de alto rendimiento es clave para el desarrollo de modelos de inteligencia artificial más eficientes, especialmente en entornos de cálculo intensivo como los centros de datos.

Para los inversionistas y profesionales del sector peruano, este desarrollo refleja una tendencia clara: las empresas tecnológicas están cerrando brechas en rendimiento entre soluciones abiertas y productos comerciales. Aunque la tecnología se desarrolla en entornos internacionales, su impacto puede ser medido en el crecimiento de capacidades locales en IA, como el desarrollo de soluciones personalizadas para sectores como banca, logística o educación. Los peruanos que gestionan activos o implementan sistemas de inteligencia artificial pueden observar cómo el acceso a kernels optimizados, incluso en plataformas de terceros, abre nuevas posibilidades para mejorar eficiencia sin aumentar costos operativos.