Xiaomi logra 1000 tokens por segundo en GPUs comerciales

Segun MarkTechPost (AI/ML News), un equipo de Xiaomi ha logrado procesar más de 1000 tokens por segundo en un modelo de lenguaje de trillones de parámetros, utilizando solo GPUs estándar del mercado. Esta capacidad se logra mediante la combinación de tres tecnologías coordinadas en una arquitectura de servicio optimizada. El modelo en cuestión, MiMo-V2.5-Pro-UltraSpeed, se posiciona como una primera en su escala, ya que rompe barreras en el rendimiento de inferencia sin depender de chips especializados. Los demostraciones registran picos de generación cercanos a 1200 tokens por segundo, cifra que evidencia una eficiencia notable en el flujo de salida del modelo.

La innovación se basa en una estrategia de diseño integrado entre modelo y sistema, conocida como "extrema co-diseño de modelo y sistema". En primer lugar, se aplica una reducción de precisión de bits llamada FP4, solo en los módulos expertos del sistema de mezcla de especialistas (MoE). Esta técnica disminuye la presión de memoria y ancho de banda, permitiendo que los datos se transfieran más rápidamente. Aunque se aplican solo en los expertos, que contienen la mayor parte de los parámetros, el modelo mantiene su calidad mediante entrenamiento consciente de la cuantización (QAT), que preserva el rendimiento original. Este ajuste se ha validado por el grupo TileRT, que informa que los módulos no afectados mantienen precisión FP8.

El segundo componente es el decodificador especulativo DFlash, que permite procesar múltiples secuencias simultáneamente, evitando el bloqueo secuencial que limita la velocidad tradicional. Este método no solo anticipa las siguientes salidas, sino que también ejecuta operaciones paralelas, optimizando el tiempo de respuesta. La tercera capa corresponde al sistema de ejecución TileRT, que gestiona toda la operación en una configuración de nodos comerciales, compuesta por solo ocho GPUs estándares. La combinación de estas tres capas es esencial: ninguna técnica individual alcanzaría el umbral de 1000 tokens por segundo sin una sincronización precisa entre ellas.

Para el lector peruano, este avance representa una señal clave en la evolución de la inteligencia artificial accesible. Mientras que las grandes empresas han invertido en chips propios, el caso de Xiaomi demuestra que se pueden lograr rendimientos de punta sin dependencias de hardware exclusivo. En un contexto donde el acceso a tecnologías de vanguardia es limitado, este modelo ofrece una visión de cómo se pueden construir soluciones de alto rendimiento con infraestructura disponible y de bajo costo. Para inversores o emprendedores del sector, indica que las barreras tecnológicas no son imposibles de superar, y que la eficiencia puede ser priorizada sobre la complejidad. Esto podría abrir caminos para aplicaciones en servicios de atención al cliente, asistentes virtuales o herramientas de análisis, incluso en entornos con recursos más modestos.