JetBrains Lanza Mellum2: Modelo de Código para Ingeniería de Software

Segun MarkTechPost (AI/ML News), JetBrains ha lanzado Mellum2, un modelo de lenguaje especializado en tareas de ingeniería de software, bajo licencia Apache 2.0. Este avance representa una evolución clave desde la primera versión de Mellum, un modelo denso de 4B parámetros enfocado en completar textos, al presentar ahora un sistema más robusto y eficiente. Mellum2, con 12B parámetros totales y 2.5B activos por token, se posiciona como un componente clave en cadenas de procesos de inteligencia artificial, no como una alternativa directa a modelos de vanguardia. Su arquitectura se basa en un sistema de mezcla de expertos (MoE), donde 64 especialistas activan solo 8 por cada token procesado, reduciendo el uso de recursos sin comprometer la capacidad de especialización.

La estructura del modelo incluye 28 capas, una profundidad oculta de 2304 dimensiones, y emplea atención por grupos (GQA) con 32 cabezas de consulta y 4 cabezas de valor-llave. En tres de cada cuatro capas, se aplica atención con ventana deslizante de 1.024 tokens, mientras que en la capa restante se mantiene la atención completa. Esta configuración permite manejar secuencias de hasta 131.072 tokens, lo cual es crítico para tareas que requieren análisis extenso de código. Además, el modelo incorpora un módulo de predicción multitoken (MTP), que sirve tanto como objetivo de entrenamiento secundario como como herramienta para generar borradores en procesos de decodificación especulativa. Su vocabulario cuenta con 98.304 entradas, y se entrena sobre un corpus de aproximadamente 10.6 trillones de tokens, pasando por tres fases: primero con contenido web diverso, luego con código y contenidos matemáticos curados.

Este modelo está diseñado exclusivamente para lenguajes naturales y de programación, sin soporte para imágenes o videos. Su entrenamiento se realiza con el optimizador Muon, en precisión FP8 híbrida, lo que mejora la eficiencia computacional sin sacrificar precisión. La especialización en tareas como generación de código, edición, depuración, razonamiento en múltiples pasos y uso de herramientas hace que Mellum2 sea ideal para entornos de desarrollo ágiles y de alto rendimiento.

Para los peruanos, este avance resalta la importancia de contar con herramientas accesibles que faciliten el desarrollo tecnológico en entornos locales. Aunque no se trata de un modelo multimodal, su capacidad para automatizar tareas de programación puede reducir el tiempo de desarrollo en startups y empresas que operan en entornos digitales. En un contexto donde el acceso a tecnologías avanzadas ha sido históricamente limitado, herramientas como Mellum2 pueden democratizar el uso de inteligencia artificial, permitiendo que profesionales de finanzas, administración o tecnología en el país aprovechen sus capacidades sin necesidad de infraestructuras costosas. Así, el modelo no solo es un avance técnico, sino también una oportunidad para acelerar la innovación en sectores clave del desarrollo nacional.