MiniMax M3 lanza modelo con atención esparsa y contexto de 1 millón de tokens

Segun MarkTechPost (AI/ML News), el equipo de MiniMax presentó oficialmente el modelo MiniMax M3 el 1 de junio de 2026. Este avance representa la continuación directa de la línea M, tras el lanzamiento del modelo M2.7, y se posiciona como una innovación clave en el campo de los sistemas de inteligencia artificial agente. La nueva arquitectura, denominada MSA (MiniMax Sparse Attention), permite al modelo manejar un contexto de hasta un millón de tokens, una capacidad que supera significativamente a las versiones anteriores. Este límite se traduce en una capacidad de procesamiento de información sin precedentes, que permite analizar textos extensos sin perder precisión ni rendimiento.

La estructura de atención esparsa MSA se diseña para resolver el problema de complejidad cuadrática inherente al cálculo de atención estándar. En sistemas tradicionales, el costo computacional aumenta exponencialmente con la longitud del contexto. MSA introduce una fase de filtrado previa que reduce el número de operaciones necesarias, evitando el cálculo completo de todas las interacciones. Diferenciándose de métodos como DSA o MoBA, MSA divide el caché de claves y valores en bloques más eficientes, optimizando el alcance efectivo del contexto. En el nivel operativo, el sistema emplea un mecanismo denominado “KV outer gather Q”, donde los bloques del caché actúan como bucle superior para agrupar consultas que los alcanzan. Cada bloque se lee solo una vez, garantizando acceso contiguo a la memoria. Este diseño permite que MiniMax M3 sea más de cuatro veces más rápido que implementaciones abiertas como Flash-Sparse-Attention o flash-moba, bajo la misma configuración de capas. Como resultado, al procesar un contexto de un millón de tokens, el consumo por token en MiniMax M3 es una veinteava parte del de las versiones anteriores del modelo M2.

El modelo está disponible actualmente a través de MiniMax Code, el plan de tokens y la API oficial. Además, los pesos del modelo y el informe técnico se publicarán dentro de los próximos 10 días. Su capacidad para recibir entradas multimodales, incluyendo imágenes y videos, junto con su soporte nativo para operar en escritorios, lo convierten en una herramienta viable para aplicaciones prácticas. La combinación de un rendimiento de codificación de vanguardia, una ventana de contexto amplia y entrada multimodal en una sola arquitectura lo posiciona como el primer modelo de este tipo en el mercado.

Para los usuarios peruanos, este avance representa una oportunidad clave en el acceso a tecnologías de inteligencia artificial que pueden integrarse en entornos empresariales o educativos. Aunque aún no está disponible en plataformas locales, su evolución podría acelerar el desarrollo de soluciones personalizadas para sectores como el agro, la salud o el comercio. La capacidad de procesar grandes volúmenes de datos, sin sacrificar precisión, permite diseñar asistentes digitales más eficaces, que puedan ayudar a pequeñas y medianas empresas a gestionar información compleja de forma más ágil y económica.