MisoTTS: Modelo abierto de voz con emociones y baja latencia

Segun MarkTechPost (AI/ML News), Miso Labs ha lanzado MisoTTS, un modelo de síntesis de voz abierto con 8 mil millones de parámetros. Este sistema genera speech expresivo, capaz de interpretar tanto texto como contexto auditivo previo. La innovación principal reside en su uso de una técnica llamada codificación residual por vectores (RVQ), que permite ampliar el rango sonoro sin incrementar el número total de parámetros. Este enfoque evita el problema tradicional de expandir vocabularios discretos, que en el caso del habla humana no son suficientes debido a la variabilidad en tono, ritmo, énfasis, emociones y acentos.

El modelo se basa en una arquitectura híbrida: combina un núcleo inspirado en Llama 3.2 con un decodificador audiovisual más pequeño. A través de este diseño, MisoTTS convierte el texto y, opcionalmente, una muestra de audio previa en códigos de audio denominados "Mimi". La cantidad total de códigos son 32, y el vocabulario textual alcanza 128.256 tokens. El sistema permite secuencias de hasta 2.048 tokens, con una inferencia por defecto en precisión bfloat16. Los tiempos de respuesta registrados por Miso Labs son de 110 milisegundos, superando a ElevenLabs (700 ms) y a Sesame (300 ms) en rendimiento.

La limitación clásica de los modelos de transformadores es que su generación se basa en un vocabulario fijo de tokens discretos. En el caso de la voz humana, esta suposición falla, pues el habla varía constantemente en intención y emoción. MisoTTS aborda este desafío al emplear RVQ, una técnica derivada del ámbito de generación de imágenes y de la arquitectura Sesame CSM. En lugar de asignar un solo índice a cada token, el modelo emite un conjunto de índices asociados a un código de audio. Cada token audiovisual se representa mediante 204 índices de un código de 32, lo que permite una representación más rica y flexible del sonido.

Para los lectores peruanos, este avance representa una oportunidad clave en el desarrollo de tecnologías de comunicación accesibles. En un entorno donde el uso de asistentes vocales, servicios de atención al cliente o plataformas educativas en línea son cada vez más comunes, un modelo como MisoTTS puede permitir una interacción más natural y empática. La capacidad de detectar el tono del hablante y responder con una voz que refleje emociones reales, en lugar de sonidos mecánicos, reduce la sensación de inautenticidad. Esto es especialmente relevante para comunidades donde la voz humana es un pilar de conexión social y cultural. Aunque aún no está disponible para uso general, su lanzamiento abre puertas a aplicaciones en educación, salud y servicios públicos que prioricen el entendimiento emocional en las interacciones digitales.