NVIDIA Lanza Metodología de 4 Bits para Entrenar LLMs

Segun MarkTechPost (AI/ML News), un equipo de investigación de NVIDIA ha desarrollado una nueva metodología de entrenamiento para modelos de inteligencia artificial de gran tamaño, basada en un formato de precisión de 4 bits denominado NVFP4. Esta técnica, validada mediante el entrenamiento de un modelo híbrido Mamba-Transformer con 12 mil millones de parámetros sobre una secuencia de 10 trillones de tokens, marca un hito en el campo del procesamiento de lenguaje. El trabajo, publicado el 18 de mayo de 2026, representa la primera ejecución documentada en precisión de 4 bits con una duración tan extensa, lo que posiciona este avance como un punto clave en el desarrollo de modelos más eficientes.

El formato NVFP4 se construye sobre una novedad en el manejo de escalas en bloques de datos. En lugar de emplear bloques de 32 elementos como en MXFP4, NVFP4 reduce la longitud a 16 elementos, lo que acota el rango dinámico que cada bloque debe cubrir. Además, en lugar de usar una escala almacenada en UE8M0 (limitada a potencias de dos), ahora se aplica una representación E4M3, que prioriza la precisión en la mantisa a costa de un menor rango de exponentes. Esta elección permite que los valores máximos dentro de cada bloque se acerquen más al límite teórico de representación en 4 bits. Para evitar que los bloques excedan su rango, NVFP4 introduce un segundo nivel de escalamiento, basado en un valor de precisión completa de 32 bits, que reajusta los datos antes de su procesamiento. Este mecanismo garantiza que los valores más extremos no se pierdan en el cálculo, manteniendo la estabilidad del modelo a lo largo de entrenamientos prolongados.

El modelo entrenado alcanza un rendimiento de 62,58 por ciento en la prueba MMLU-Pro con cinco ejemplos, muy próximo al de la versión de precisión FP8 (62,62 por ciento). Este resultado demuestra que, a pesar de la reducción de precisión, se puede mantener un nivel de desempeño competitivo, especialmente en tareas de conocimiento general. La implementación del modelo también está integrada directamente en el motor Transformer de NVIDIA, lo que facilita su uso en entornos de producción y permite una escalabilidad más eficiente en infraestructuras existentes.

Para los inversionistas y profesionales del sector peruano, este avance refleja una tendencia clara: la eficiencia energética y el costo de operación de los modelos de IA están siendo optimizados mediante técnicas de reducción de precisión. En un contexto donde las empresas locales enfrentan presiones por reducir costos operativos sin sacrificar calidad, la capacidad de entrenar modelos grandes con menos recursos puede ser clave. Aunque aún no se han implementado aplicaciones directas en el mercado peruano, esta evolución podría acelerar el desarrollo de soluciones de inteligencia artificial en sectores como banca, salud o comercio, donde el uso de modelos personalizados y rápidos es cada vez más demandado.