Google Lanza Gemma 4 con Optimización para Dispositivos Locales

Segun MarkTechPost (AI/ML News), Google DeepMind ha lanzado puntos de control de entrenamiento consciente de cuantización (QAT) para la familia de modelos Gemma 4, una evolución clave que busca facilitar el uso de inteligencia artificial en dispositivos móviles y hardware doméstico. Esta actualización se da tras el lanzamiento inicial de Gemma 4 en abril y un modelo de 12B en días posteriores. Los datos disponibles indican que el enfoque de QAT no solo mantiene, sino que mejora la calidad del modelo frente a técnicas tradicionales de compresión, como la cuantización post-entrenamiento (PTQ).

La cuantización reduce el tamaño de los modelos al disminuir la precisión de los pesos, pero en la práctica, este proceso puede degradar el rendimiento. El QAT, en cambio, simula esta reducción durante el entrenamiento, permitiendo al modelo aprender a compensar las pérdidas de precisión. De acuerdo con el equipo de inteligencia artificial de Google, este enfoque logra un rendimiento superior en comparación con las bases de PTQ. Aunque no se han publicado resultados de evaluación de precisión para Gemma 4, se cita como referencia el caso de Gemma 3, donde el QAT redujo el descenso en la perplexidad del modelo en un 54% mediante evaluaciones con llama.cpp.

Se analizan tres formatos disponibles: BF16, Q4_0 QAT y un nuevo formato móvil de QAT. BF16 actúa como punto de referencia de calidad, requiriendo 9,6 GB para Gemma 4 E2B y 15 GB para E4B, cifras que no son viables para dispositivos móviles. El formato Q4_0 QAT, aunque mantiene el tamaño de los modelos de cuantización tradicional (PTQ), ofrece una mejora significativa en la calidad. El nuevo formato móvil, por su parte, permite reducir el tamaño del modelo E2B a aproximadamente 1 GB. En condiciones específicas, un modelo sin codificadores de audio y visión podría alcanzar menos de 1 GB, lo que abre la posibilidad de ejecución en dispositivos más ligeros.

Para el lector peruano, este avance representa una oportunidad real de acceso a inteligencia artificial local. Muchas personas en el país aún dependen de internet para acceder a servicios como asistentes virtuales o herramientas de análisis financiero. Con modelos como Gemma 4 que pueden operar en dispositivos personales —como celulares o computadoras domésticas—, se puede reducir la dependencia de conectividad constante. Esto es especialmente relevante en zonas rurales o con baja cobertura, donde la capacidad de procesar datos en local mejora la eficiencia y privacidad. Aunque el modelo aún está en fase de desarrollo, su evolución muestra un camino hacia tecnologías más inclusivas y accesibles, alineadas con las necesidades del mercado peruano en crecimiento.