Google DeepMind Lanza Gemma 4 12B: Modelo Multimodal sin Codificadores

Segun MarkTechPost (AI/ML News), Google DeepMind ha presentado Gemma 4 12B, un modelo de inteligencia artificial multimodal diseñado para operar sin codificadores tradicionales. Este avance permite que textos, imágenes, videos y audio sean procesados directamente por el núcleo del modelo, eliminando capas intermedias que generaban latencia. La versión de 12 mil millones de parámetros es la primera de su tamaño en la línea Gemma que soporta entrada nativa de audio, marcando un salto clave en la eficiencia del rendimiento en dispositivos de uso común.

El modelo adopta una arquitectura unificada, basada en un transformador solo decodificador, que comparte estructura con el Gemma 4 31B. Esta configuración permite integrar múltiples modos de entrada sin necesidad de encoders separados. La eliminación de componentes como el vision encoder de 550 millones de parámetros o el audio encoder de 300 millones de parámetros simplifica significativamente el flujo de datos y reduce el consumo de recursos. Los datos de imágenes se dividen en parches de 48×48 píxeles, que luego son proyectados directamente al decodificador. Este diseño no solo acelera los procesos de inferencia, sino que también permite ejecutar tareas agencias en laptops con hasta 16 GB de memoria unificada, incluyendo dispositivos con procesadores de Apple Silicon.

Las capacidades técnicas del modelo son accesibles públicamente a través de Hugging Face y Kaggle, bajo licencia Apache 2.0. Los usuarios pueden acceder a su peso mediante herramientas como llama.cpp, vLLM, Ollama, SGLang, Unsloth y LM Studio. Además, se ha integrado un servidor local compatible con OpenAI, facilitando su uso en entornos privados. Un modelo especializado en predicción múltiple tokens (MTP) también se ha lanzado, optimizando la latencia en hardware local. La compatibilidad con pilotos de inferencia amplía su utilidad tanto para desarrolladores como para usuarios finales que buscan soluciones autónomas en inteligencia artificial.

Para el lector peruano, este desarrollo representa una oportunidad clave para democratizar el acceso a modelos de inteligencia artificial avanzada. Muchas empresas y pequeños emprendimientos en el país aún enfrentan barreras técnicas y económicas para integrar tecnologías de IA. Con un modelo que corre en laptops de gama media y que soporta múltiples modos de entrada, se abre una puerta a aplicaciones prácticas como asistentes virtuales, análisis de documentos, generación de contenidos multimedia o incluso apoyo en procesos de atención al cliente. Aunque aún requiere conocimientos técnicos básicos para su implementación, la disponibilidad abierta y la sencillez de hardware hacen que esta tecnología sea más accesible que nunca. En un contexto donde el crecimiento digital y la innovación son pilares estratégicos, herramientas como Gemma 4 12B podrían convertirse en pilares clave para el desarrollo local de soluciones tecnológicas sostenibles.