StepFun Lanza Modelo de Inteligencia Artificial para Tareas Agentes

Segun MarkTechPost (AI/ML News), StepFun ha presentado Step 3.7 Flash, un modelo de lenguaje multimodal con arquitectura de mezcla de expertos (MoE) diseñado para aplicaciones agentes. Este avance permite que las máquinas entiendan y procesen imágenes nativamente, integrando una codificación visual de 1.8B parámetros con un núcleo lingüístico de 196B parámetros. Durante la ejecución, solo se activan alrededor de 11B parámetros por token, lo que optimiza el uso del procesamiento sin sacrificar el total de 198B parámetros asignados. La separación funcional entre el módulo de visión y el de lenguaje permite que las representaciones visuales sean introducidas directamente al contexto del modelo lingüístico, facilitando una comprensión más fluida de escenas, objetos y escenarios.

El modelo introduce tres niveles de razonamiento: bajo, medio y alto. El nivel bajo ofrece mayor velocidad y menor costo computacional, ideal para tareas rápidas. El nivel alto, por su parte, consume más recursos por respuesta, pero permite una mayor profundidad en el análisis. Esta flexibilidad permite a los desarrolladores ajustar el equilibrio entre eficiencia y calidad según el escenario. En pruebas específicas, Step 3.7 Flash logra un rendimiento de 56.26% en SWE-Bench Pro, un incremento de casi 5 puntos respecto a la versión anterior (51.3%). En Terminal-Bench 2.1, el resultado aumenta de 53.37% a 59.55%. En el benchmark SWE-MTLG, el modelo obtiene un puntaje de 72.42%, destacando su capacidad para generar código en múltiples tareas complejas. Además, en pruebas internas de consistencia, el rango de variabilidad disminuye de 43% a 73% en la versión 3.5 Flash a 64.5% a 71.5% en la 3.7, lo que indica una mayor estabilidad en distintos entornos de ejecución.

Este avance es relevante para el entorno peruano, donde el desarrollo tecnológico en áreas como fintech, logística y servicios digitales está creciendo. Las empresas que operan en entornos heterogéneos —como los bancos digitales o plataformas de comercio electrónico— enfrentan desafíos al integrar sistemas que deben interpretar imágenes o documentos sin intervención humana. Step 3.7 Flash podría ayudar a automatizar tareas como la verificación de documentos, el análisis de fotos de inventarios o la interpretación de interfaces. La capacidad de funcionar de forma predecible en distintas configuraciones hace que este modelo sea una herramienta viable para startups y entidades que buscan integrar inteligencia artificial sin necesidad de infraestructuras extremadamente costosas. Aunque aún en etapa de desarrollo, su rendimiento en tareas de código y razonamiento sugiere que puede ser un pilar en el futuro de la automatización de procesos técnicos en el Perú.