Supertonic 3: Nueva tecnología de voz para dispositivos

Segun MarkTechPost (AI/ML News), Supertone ha lanzado Supertonic 3, la tercera generación de su sistema de síntesis de voz en dispositivo basado en ONNX. Esta versión introduce soporte para 31 idiomas, una mejora en la precisión de lectura y una reducción significativa de errores como repeticiones o saltos en la voz. Los idiomas abarcados incluyen japonés, árabe, búlgaro, checo, danés, alemán, griego, estonio, finés, croata, húngaro, indonesio, italiano, lituano, letón, holandés, polaco, rumano, ruso, eslovaco, esloveno, sueco, turco, ucraniano y vietnamita, además de los cinco originales de la versión anterior. En caso de texto sin idioma identificado, el modelo cuenta con un mecanismo de fallback especial. La arquitectura del modelo se mantiene modesta, con unos 99 millones de parámetros en los activos públicos ONNX, lo que lo posiciona considerablemente más pequeño que sistemas abiertos de síntesis de voz que van desde 0.7 hasta 2 mil millones de parámetros. Esta reducción permite tiempos de carga más rápidos, un consumo de almacenamiento menor y una ejecución eficiente directamente en el dispositivo. El tamaño total de los activos públicos en disco alcanza los 404 megabytes.

Uno de los avances clave de esta versión es la inclusión de etiquetas expresivas, como <risa>, <respiración> o <suspiración>. Estas indicaciones se integran directamente en el texto de entrada, eliminando la necesidad de pasos previos de preprocesamiento o modelos separados para gestionar el tono y el ritmo. Esta funcionalidad simplifica el desarrollo de aplicaciones que requieren una voz más natural y humana. Además, Supertone ha lanzado Voice Builder, una herramienta que permite a desarrolladores crear modelos personalizados de síntesis de voz a partir de grabaciones propias, manteniendo la capacidad de funcionamiento en dispositivos extremos como teléfonos o wearables.

Para los usuarios peruanos, esta evolución en tecnología de voz tiene implicaciones directas. En un contexto donde el acceso a servicios digitales es cada vez más clave — desde educación hasta comercio y servicios de salud —, la disponibilidad de voces en idiomas nacionales como el quechua, el aymara o el español, puede ser ampliada gracias a los avances en modelos multilingües. Aunque Supertonic 3 no cubre aún todos los idiomas indígenas, su capacidad para adaptarse a múltiples lenguas demuestra un avance en la inclusión digital. Esto abre posibilidades para que aplicaciones locales, como plataformas educativas o herramientas de comunicación, integren voces más cercanas al hablante, mejorando así la experiencia del usuario en entornos digitales cotidianos. La tecnología no solo se traduce en funcionalidad, sino en una conexión más cercana entre el sistema y la realidad cultural de cada comunidad.