Modelo abierto de reconocimiento de voz multilingüe llega con innovación en IA

Segun MarkTechPost (AI/ML News), una startup de la incubadora YC llamada Interfaze ha lanzado un nuevo modelo de reconocimiento de voz abierto, denominado diffusion-gemma-asr-small. Este sistema permite transcribir audio en seis idiomas mediante una arquitectura de difusión, convirtiéndose en el primer modelo abierto de este tipo diseñado para múltiples lenguas. La solución se basa en un adaptador de solo 42 millones de parámetros, entrenado sobre una estructura base fija de 26 mil millones de parámetros, lo que representa aproximadamente el 0.16% del total del modelo. Este enfoque permite mantener una baja carga computacional mientras se logra una alta eficiencia en la transcripción.

La innovación radica en el uso de un decodificador de difusión, en lugar de los modelos autoregresivos tradicionales que generan texto token por token. En este caso, el sistema aplica un proceso paralelo en el que todos los tokens se generan simultáneamente, utilizando un mecanismo de difusión uniforme y aleatoria. En lugar de aplicar un esquema de "mascara" que absorbe el valor de un token, el modelo llena un lienzo fijo con vocabulario aleatorio, conservando las predicciones confiables y redefiniendo el resto en cada paso. Este proceso se repite hasta que el ruido se transforma en texto coherente. La implementación se basa en el decodificador de DiffusionGemma, una arquitectura de 26B parámetros desarrollada por Google, que activa 4 mil millones de parámetros mediante una selección de 128 expertos con routing top-8.

En pruebas realizadas en el conjunto LibriSpeech, el modelo alcanza un error de reconocimiento de 6.6%, superando al sistema Whisfusion (8.3%) y posicionándose entre los líderes en este tipo de tareas. Sin embargo, aún no supera en rendimiento a los modelos autoregresivos como Whisper, que mantiene una ventaja en precisión. El modelo está disponible bajo licencia Apache-2.0, mientras que los componentes DiffusionGemma y whisper-small se cargan por separado bajo licencias MIT.

Para los usuarios peruanos, este avance representa una oportunidad clave. En un contexto donde el acceso a herramientas de traducción y reconocimiento de voz es fundamental para el desarrollo de contenidos digitales, la disponibilidad de un modelo multilingüe abierto y eficiente puede facilitar la creación de contenido en idiomas como el quechua, el aimara o el español, sin necesidad de depender de plataformas cerradas. Esto no solo reduce costos operativos, sino que también promueve la inclusión tecnológica en comunidades donde el acceso a tecnologías de IA ha sido históricamente limitado. El modelo puede ser integrado en aplicaciones locales, como herramientas educativas o servicios de atención al cliente, ampliando así el alcance de la tecnología en entornos reales del país.