Segun MarkTechPost (AI/ML News), NVIDIA ha presentado Nemotron-Labs-TwoTower, un modelo de lenguaje de difusión abierto construido sobre una arquitectura autoregresiva preentrenada. Este avance busca superar el límite de velocidad en la generación de texto, un problema crítico en modelos tradicionales que procesan una palabra a la vez. En lugar de seguir un proceso secuencial, la nueva arquitectura emplea un enfoque paralelo, generando tokens simultáneamente y refinándolos en múltiples pasos. La innovación radica en separar dos funciones clave: una torre fija que proporciona contexto autoregresivo, y otra torre entrenada que corrige y limpia los datos generados. A pesar de esta separación, el modelo conserva el 98.7% de la calidad promedio del modelo autoregresivo base, mientras alcanza un rendimiento de generación 2.42 veces superior en tiempo real. Los resultados se obtuvieron bajo condiciones específicas: un factor de escala γ de 0.8, con una secuencia de 16 pasos, utilizando dos tarjetas H100.
El modelo se ejecuta sobre una arquitectura híbrida denominada Nemotron-3-Nano-30B-A3B, que integra capas de Mamba-2, atención autónoma y un sistema de expertos (MoE). Cada torre cuenta con 52 capas: 23 de Mamba-2, 6 de atención y 23 de MoE. El total de parámetros del modelo se sitúa alrededor de 60 billones, con aproximadamente 3 billones de parámetros activos por token. El sistema emplea 128 expertos configurables, de los cuales 6 se activan en cada paso, además de 2 expertos compartidos. La torre de denoising fue entrenada sobre unos 2.1 trillones de tokens, un volumen menor al total de 25 trillones de tokens utilizados en el entrenamiento del backbone. El modelo incluye una única versión de checkpoint que permite ejecutar modos de difusión, simulación autoregresiva y decodificación autoregresiva, ofreciendo flexibilidad para diversas aplicaciones.
Este avance técnico tiene relevancia directa para el entorno peruano. En un contexto donde las empresas de servicios, especialmente en sectores como finanzas, comercio y administración, enfrentan demandas crecientes de automatización y análisis de textos, modelos como este permiten generar contenido de alta calidad en menos tiempo. Para inversores, analistas o pequeñas empresas que dependen de reportes automatizados, el aumento del rendimiento de generación puede traducirse en decisiones más rápidas y precisas. Además, el acceso abierto a los pesos del modelo abre la puerta a su uso por entidades locales que no cuentan con infraestructura de vanguardia, fomentando la innovación sin dependencia de tecnologías cerradas. En este escenario, el modelo no solo representa una mejora técnica, sino también una herramienta accesible para el desarrollo local de soluciones digitales.
