NVIDIA Lanza Star Elastic: Una Nueva Estrategia para Modelos de IA

Segun MarkTechPost (AI/ML News), un equipo de investigadores de NVIDIA presenta una innovación en infraestructura de inteligencia artificial que transforma la forma en que se desarrollan y gestionan los modelos de lenguaje. La técnica, denominada Star Elastic, permite integrar múltiples variantes de modelos de tamaño distinto —como 30B, 23B y 12B parámetros— dentro de un solo modelo principal, sin necesidad de entrenarlos de forma separada. Este enfoque se aplica a Nemotron Nano v3, un modelo híbrido basado en Mamba, Transformer y MoE, con 30B parámetros totales y 3.6B activos. Al entrenar con aproximadamente 160 mil millones de tokens, el sistema genera automáticamente submodelos de 23B (2.8B activos) y 12B (2.0B activos) como componentes internos, todos alojados en una sola versión de checkpoint.

La estructura de "anidamiento" permite que cada modelo más pequeño reutilice los pesos más críticos del modelo principal, identificados mediante un proceso llamado estimación de importancia. Este análisis evalúa cada elemento del modelo —como canales de embeddings, cabezales de atención, unidades de Mamba, expertos de MoE y capas de feed-forward— según su contribución a la precisión. Posteriormente, se clasifican y ordenan estos componentes para garantizar que los submodelos más compactos mantengan una eficiencia adecuada sin sacrificar rendimiento. La ventaja clave radica en que, al evitar entrenamientos paralelos y almacenamientos separados, se reduce significativamente el gasto computacional y la infraestructura necesaria. Así, un equipo de desarrollo puede escoger dinámicamente el tamaño de modelo en cada fase de razonamiento, optimizando el equilibrio entre precisión y latencia.

Para los inversionistas y profesionales del sector peruano, esta evolución en IA representa una reducción tangible en los costos operativos de implementación. En un contexto donde las empresas locales enfrentan presiones crecientes por mantener eficiencia en sus procesos de toma de decisiones, la capacidad de integrar múltiples capacidades de inteligencia artificial en un solo sistema puede ser clave. Los sectores como el comercio, la logística o el servicios públicos, que dependen de soluciones rápidas y escalables, podrían beneficiarse de esta tecnología. Aunque aún no se ha validado su uso en entornos latinoamericanos, el modelo de Star Elastic sugiere una tendencia hacia infraestructuras más ágiles y adaptativas, donde el tamaño del modelo no sea un obstáculo para su aplicación práctica. En el futuro, este tipo de innovaciones podría facilitar el acceso a herramientas avanzadas de inteligencia artificial para pequeñas y medianas empresas que antes no contaban con los recursos para mantener múltiples modelos entrenados.