Segun MarkTechPost (AI/ML News), el laboratorio de investigación de inteligencia artificial de Microsoft ha presentado Fara1.5, una familia de modelos de agentes de uso computacional diseñados para operar directamente en navegadores web. Este avance incluye tres variantes por tamaño: Fara1.5-4B, Fara1.5-9B y Fara1.5-27B, cada una optimizada para distintos niveles de complejidad de tareas. Los modelos funcionan dentro de una interfaz de navegador aislada llamada MagenticLite, que garantiza un entorno seguro y controlado para la ejecución de acciones en línea.
La tecnología se basa en un bucle de observación, pensamiento y acción, donde el modelo integra el historial de conversación y las tres pantallas más recientes del navegador para generar una secuencia de acciones. Las acciones pueden incluir movimientos del ratón, tecleados o operaciones específicas de internet, como realizar búsquedas. Además, el sistema permite ejecutar acciones meta, como recordar información para futuras referencias o solicitar al usuario aclaraciones, lo que permite una interacción más fluida y estratégica. Este diseño mejora la capacidad del agente para mantener contexto a largo plazo y adaptarse dinámicamente a los requerimientos del usuario.
En pruebas comparativas, Fara1.5-27B alcanza un 72% de éxito en completar 300 tareas en 136 sitios web populares del benchmark Online-Mind2Web. Este resultado supera significativamente a otras soluciones del sector: OpenAI Operator logra un 58.3%, mientras que Gemini 2.5 Computer Use alcanza solo el 57.3%. El modelo Fara1.5-9B registra un 63.4%, lo que representa casi el doble de los 34.1% conseguidos por su versión anterior, Fara-7B. La evolución en rendimiento refleja un avance notable en la capacidad de los agentes para operar de forma autónoma en entornos reales.
El entrenamiento se basa en aproximadamente dos millones de muestras, distribuidas entre distintos tipos de interacción. El 60% proviene de trayectorias reales de navegación web, mientras que el 12.8% corresponde a entornos sintéticos. Otras categorías incluyen 12.5% para llenado de formularios y actividades de usuario, 8.8% para enlace entre información y contexto real (grounding), y 4.9% para preguntas visuales (VQA). Esta combinación permite que el modelo aprenda no solo a navegar, sino también a interpretar contenido y actuar de forma coherente con el objetivo final.
Para los lectores peruanos, este avance en inteligencia artificial representa una oportunidad real de transformar cómo se gestionan tareas cotidianas en entornos digitales. Desde buscar información en el mercado hasta gestionar formularios en plataformas gubernamentales, los agentes de IA como Fara1.5 podrían simplificar procesos que hoy requieren múltiples pasos y tiempo. Aunque aún en etapa de desarrollo, su rendimiento en tareas reales sugiere que el futuro de las interacciones digitales podría incluir sistemas más autónomos, más rápidos y personalizados, especialmente en contextos donde el acceso a internet es clave para el desarrollo económico y social.
