Zamba2-VL: Modelo híbrido que acelera respuestas visuales

Según MarkTechPost (AI/ML News), Zyphra ha lanzado Zamba2-VL, una familia de modelos visuales-lingüísticos abiertos que integran imágenes y texto para responder preguntas sobre documentos, gráficos o fotos. Los modelos disponen de tres versiones: con 1.2B, 2.7B y 7B parámetros. Su estructura se basa en un entramado híbrido de capas de estado espacial (SSM) y bloques de atención compartida, un diseño que busca mantener precisión competitiva mientras reduce significativamente el tiempo de respuesta inicial —aproximadamente un orden de magnitud— frente a modelos tradicionales.

El diseño de Zamba2-VL sigue el patrón estándar de modelos como LLaVA. Primero, un codificador visual preentrenado convierte fragmentos de imágenes en características vectoriales. Luego, un adaptador ligero de red neuronal multilayer perceptrón (MLP) proyecta esas características al espacio del modelo lingüístico. Finalmente, el modelo lee una secuencia intercalada de tokens visuales y de texto. Esta arquitectura permite comprender imágenes individuales o múltiples, así como establecer conexiones entre lo visual y lo escrito. La selección del codificador de Qwen2.5-VL fue estratégica: posee embebidos de posición rotativos en dos dimensiones y procesa resoluciones dinámicas nativas. Entre el codificador y el núcleo híbrido se coloca un adaptador de dos capas, optimizando el flujo de información.

La innovación principal reside en el núcleo de Zamba2, donde se combina Mamba2 y bloques de atención compartida. Las capas de Mamba2 operan en tiempo lineal con un estado fijo, lo que reduce costos computacionales. Entre estas capas se insertan bloques de atención compartida, que mantienen la capacidad de recuperar contexto en tiempo real. Este equilibrio permite preservar la flexibilidad de los modelos de atención pura, sin sacrificar la eficiencia del estado espacial. Aunque el modelo renuncia a la expresividad completa de los modelos de atención tradicionales, logra un rendimiento más rápido en tareas prácticas. Se emplea el tokenizador Mistral v0.1, entrenado sobre una base de 100 mil millones de tokens.

Para el lector peruano, esta evolución tecnológica es relevante en contextos donde se requiere procesar información multimodal en tiempo real. Desde el análisis de contratos en PDFs hasta la interpretación de gráficos financieros en medios digitales, modelos como Zamba2-VL podrían integrarse en plataformas de asesoría o automatización de tareas administrativas. Su bajo costo de operación y alta velocidad de respuesta permiten aplicaciones más accesibles, incluso en entornos con infraestructura limitada. Aunque aún no se han validado en mercados latinoamericanos, su potencial en sectores como contabilidad, comercio o finanzas representa una oportunidad para mejorar la eficiencia de procesos que hoy dependen de intervenciones humanas.