NVIDIA Lanza Nemotron 3.5 ASR para reconocimiento de voz en tiempo real

Segun MarkTechPost (AI/ML News), el equipo de voz de NVIDIA ha presentado Nemotron 3.5 ASR, un modelo de reconocimiento de voz en tiempo real basado en una arquitectura de 600 millones de parámetros. Este sistema permite transcribir en tiempo real 40 idiomas y variantes lingüísticas, con puntuación y mayúsculas integradas desde el inicio. La tecnología se entrega como pesos abiertos en Hugging Face bajo la licencia OpenMDW-1.1, facilitando su uso por desarrolladores y entidades sin restricciones comerciales. La estructura interna combina un codificador Cache-Aware FastConformer-RNNT con un decodificador basado en RNNT, diseñado para emitir texto de forma secuencial mientras se procesa el flujo sonoro.

El modelo evoluciona desde la versión base NVIDIA/nemotron-speech-streaming-en-0.6b, incorporando un mecanismo de identificación de idioma mediante condiciones basadas en prompts. Esto permite que una sola instancia del modelo abarque múltiples lenguas sin necesidad de intercambiar o entrenar modelos separados. Dos aplicaciones principales son priorizadas: la transcripción en tiempo real para audiencias vivas, como conferencias o llamadas telefónicas, y el procesamiento en lotes para transcripciones masivas, como registros de reuniones o contenido audiovisual. El resultado final es texto producido, con formato gramatical correcto, incluyendo mayúsculas y signos de puntuación, sin requerir pasos adicionales de corrección.

La eficiencia del sistema se logra mediante un diseño “cache-aware” que evita el procesamiento repetido de segmentos de audio. En lugar de reevaluar ventanas superpuestas, el modelo almacena y reutiliza estados de atención y convolución en el codificador. Cada fragmento sonoro es procesado una sola vez, eliminando solapamientos y reduciendo así el consumo de recursos computacionales. Esto disminuye tanto la latencia como el tiempo total de ejecución, sin afectar la precisión del resultado. Un parámetro clave —el tamaño del contexto de atención, att_context_size— permite ajustar el equilibrio entre rapidez y precisión, permitiendo adaptar el rendimiento a distintos escenarios de uso.

Para los usuarios peruanos, esta innovación representa una herramienta poderosa para la inclusión digital. Muchos sectores, como educación, salud o comunicación, dependen de la transcripción de audio en múltiples idiomas. Con Nemotron 3.5, empresas locales pueden integrar sistemas de grabación que funcionen en español, quechua, aymara o otras variantes locales, sin necesidad de infraestructura especializada. Además, la disponibilidad abierta de los modelos facilita su adaptación a contextos específicos, como el registro de entrevistas en comunidades rurales o la creación de contenidos educativos en idiomas indígenas. Así, la tecnología no solo mejora la eficiencia técnica, sino que también contribuye a la democratización del acceso a herramientas de comunicación digital.