Baidu Lanza Modelo OCR de 3B Parámetros para Procesar Documentos Largos

Segun MarkTechPost (AI/ML News), Baidu ha lanzado el modelo Unlimited OCR el 22 de junio de 2026, una solución innovadora para la lectura de documentos extensos. Este sistema permite procesar decenas de páginas en una sola pasada, sin que el consumo de memoria crezca con el tamaño del contenido. La tecnología se basa en una arquitectura que mantiene constante el tamaño del caché de atención (KV cache), evitando así que el rendimiento se degrade al aumentar la longitud del texto generado.

El modelo, con 3 mil millones de parámetros totales, activa solo 500 millones durante el proceso de inferencia, lo que lo convierte en una opción eficiente para tareas de reconocimiento óptico de caracteres (OCR). Su diseño se inspira en DeepSeek OCR, pero no se reentrena desde cero. En cambio, se optimiza mediante entrenamiento continuo, lo que mantiene la calidad de los resultados mientras se mejora la eficiencia. La versión de Baidu logra una puntuación de 93.23 en la prueba OmniDocBench v1.5, superando en 6.22 puntos a la versión original de DeepSeek.

El proceso comienza con un componente denominado DeepEncoder, que actúa como motor de compresión. Este sistema combina un modelo SAM-ViT bajo atención por ventanas con un CLIP-ViT bajo atención global. En el punto de conexión, aplica una compresión de 16 veces, reduciendo una imagen de 1024×1024 a 256 tokens visuales. Esta reducción disminuye significativamente el tamaño inicial del prefill, lo que permite que el modelo procese grandes volúmenes de datos sin sobrecargar el sistema.

El modelo cuenta con dos modos de resolución: "Base", diseñado para trabajar con documentos multiláminas en resolución de 1024×1024, y "Gundam", que adapta dinámicamente la resolución para páginas individuales. La innovación clave reside en el uso de una atención modificada denominada Reference Sliding Window Attention (R-SWA). En lugar de almacenar claves y valores para cada token, R-SWA mantiene el tamaño del caché estable, independientemente del número de tokens generados. Esto rompe la relación directa entre la longitud de salida y el uso de memoria, lo que permite una ejecución más rápida y eficiente, incluso en documentos largos.

Para el lector peruano, este avance representa una herramienta potencialmente útil en contextos como el análisis de contratos, la gestión de archivos contables o la digitalización de documentos legales. En un entorno donde muchos sectores aún dependen de procesos manuales y lentos, una solución como Unlimited OCR podría acelerar la automatización de tareas administrativas. Aunque aún no está disponible para uso general, su diseño indica un rumbo claro: integrar inteligencia artificial en aplicaciones prácticas sin sacrificar el rendimiento o la eficiencia. Esto podría inspirar desarrollos locales que prioricen la accesibilidad y el costo-beneficio en soluciones tecnológicas.