CLOSED
S&PNASDAQDOWR2KVIXAAPLMSFTNVDAGOOGLMETAAMZNTSLAAVGOGOLDWTIUSDPEN
Yahoo · 60s · delay ~15min
LIVE
BTCETHSOLXRPADABNBDOGE
CoinGecko · 30s
NVIDIA Lanza SANA-WM: Modelo Abierto para Video de 720p en 60 Segundos
Papers

NVIDIA Lanza SANA-WM: Modelo Abierto para Video de 720p en 60 Segundos

MarkTechPost (AI/ML News)16 de mayo de 2026Cortesia de MarkTechPost (AI/ML News)

Según MarkTechPost (AI/ML News), NVIDIA ha presentado SANA-WM, un modelo abierto de 2.600 millones de parámetros diseñado para generar secuencias de video de alta resolución en tiempo real. Este sistema, basado en la infraestructura de SANA-Video y disponible en el repositorio NVlabs/Sana en GitHub, permite la creación de videos de 720p con duración de un minuto, utilizando solo una GPU. La innovación central radica en su capacidad de generar contenido visual de escala minúscula sin depender de clusters computacionales extensos. El modelo emplea un Transformador de Difusión (DiT) entrenado específicamente para producir secuencias de 60 segundos a 720p, con control de cámara de seis grados de libertad (6-DoF) en escala métrica.

SANA-WM ofrece tres variantes de inferencia en una sola GPU. La primera, un generador bidireccional, se enfoca en síntesis de alta calidad para uso offline. La segunda, un generador autoregresivo por bloques, permite una simulación secuencial útil en entornos dinámicos. La tercera, una versión acelerada mediante distilación, reduce el tiempo de procesamiento hasta 34 segundos para denotar un clip de 60 segundos a 720p, usando una GPU RTX 5090 con técnica de cuantización NVFP4. Esta eficiencia es clave para aplicaciones prácticas donde el tiempo y el costo de computación son factores determinantes.

El diseño del sistema se fundamenta en cuatro decisiones arquitectónicas. La primera, un enfoque híbrido de atención lineal con Gated DeltaNet (GDN), resuelve el problema de complejidad computacional que presenta la atención estándar, cuya carga crece cuadráticamente con la longitud de la secuencia. En lugar de acumular todos los frames con igual peso, el GDN aplica un mecanismo de filtrado que permite que solo los elementos más relevantes influyan en el resultado. Este ajuste evita el desvío progresivo que afecta a secuencias largas. Además, el modelo integra una estrategia de control de cámara que permite simular movimientos reales, lo cual es vital para aplicaciones en robótica o simulación de entornos físicos.

Para el lector peruano, esta evolución en inteligencia artificial ofrece una visión clara de cómo las tecnologías emergentes pueden volverse accesibles. Aunque actualmente SANA-WM está enfocado en entornos de investigación, su estructura permite que pequeñas empresas o instituciones locales, sin necesidad de infraestructura masiva, prueben prototipos de simulación de entornos. Por ejemplo, sectores como la logística, la educación o el diseño de productos podrían usar estas herramientas para previsualizar escenarios sin costos elevados. La disponibilidad abierta del modelo también fomenta la innovación local, permitiendo que emprendedores y universidades desarrollen soluciones personalizadas sin depender exclusivamente de grandes centros tecnológicos.

NVIDIA Lanza SANA-WM: Modelo Abierto para Video de 720p en 60 Segundos | Reditua