CLOSED
S&PNASDAQDOWR2KVIXAAPLMSFTNVDAGOOGLMETAAMZNTSLAAVGOGOLDWTIUSDPEN
Yahoo · 60s · delay ~15min
LIVE
BTCETHSOLXRPADABNBDOGE
CoinGecko · 30s
Microsoft Lanza MAI-Transcribe-1.5 para transcripción de audio multilingüe
Papers

Microsoft Lanza MAI-Transcribe-1.5 para transcripción de audio multilingüe

MarkTechPost (AI/ML News)8 de junio de 2026Cortesia de MarkTechPost (AI/ML News)

Según MarkTechPost (AI/ML News), Microsoft ha presentado MAI-Transcribe-1.5, una nueva herramienta de reconocimiento automático de voz (ASR) diseñada para entornos industriales y de producción. Esta versión, segunda en la serie de modelos internos del grupo, permite transcribir audio en 43 idiomas, abarcando diferentes acentos y condiciones acústicas comunes en entornos reales. El modelo fue desarrollado completamente por equipos internos de Microsoft, sin utilizar bases externas, y se enfoca en aplicaciones prácticas, como el registro de llamadas, conversaciones en tiempo real o análisis de audio en sectores diversos.

El rendimiento del sistema se mide mediante el error de palabra (WER), un indicador clave de precisión en transcripciones. En la evaluación del benchmark FLEURS, un estándar internacional para transcripciones multilingües, MAI-Transcribe-1.5 logra un WER de 2.4%, posicionándose como el mejor modelo disponible en esa prueba. Aunque el mismo resultado no se repite en todos los escenarios, el modelo ocupa el tercer lugar en el leaderboard de Artificial Analysis, una competencia abierta que evalúa la calidad en condiciones más complejas. Este desempeño indica una estabilidad técnica en entornos variados, incluso cuando se presentan interferencias sonoras o voces menos claras.

La ampliación del soporte lingüístico representa un avance significativo: desde 25 idiomas, el modelo ahora cubre 43, incluyendo 18 nuevos. Entre ellos, destacan idiomas de Asia del Sur como el bengalí, el tamil y el telugu, así como ocho europeos, como el ucraniano, el griego y el catalán. Esta inclusión no afecta la precisión, demostrando que el modelo puede adaptarse sin sacrificar calidad. Además, en términos de eficiencia, MAI-Transcribe-1.5 permite una inferencia hasta cinco veces más rápida que modelos comparables, lo cual es clave para aplicaciones que requieren procesar largos contenidos audiovisuales en tiempo real.

Para los usuarios peruanos, esta tecnología ofrece una herramienta potente para gestionar comunicaciones en múltiples idiomas, especialmente en entornos laborales mixtos o en sectores como comercio, educación o servicios públicos. Los profesionales que manejan registros de llamadas, reuniones o entrevistas pueden ahora obtener transcripciones más rápidas y precisas, incluso en regiones donde se hablan idiomas minoritarios o con acentos distintos. Esto no solo optimiza el tiempo de trabajo, sino que también mejora la accesibilidad de información, permitiendo que los equipos tengan acceso a contenidos sin necesidad de traducción manual. En un contexto donde el uso de lenguas locales es clave, el avance de Microsoft en este ámbito puede ser un punto de inflexión para la digitalización de procesos administrativos en el país.