CLOSED
S&PNASDAQDOWR2KVIXAAPLMSFTNVDAGOOGLMETAAMZNTSLAAVGOGOLDWTIUSDPEN
Yahoo · 60s · delay ~15min
LIVE
BTCETHSOLXRPADABNBDOGE
CoinGecko · 30s
Alibaba Lanza Page Agent: Agente de IA para Web en JavaScript
Papers

Alibaba Lanza Page Agent: Agente de IA para Web en JavaScript

MarkTechPost (AI/ML News)3 de julio de 2026Cortesia de MarkTechPost (AI/ML News)

Segun MarkTechPost (AI/ML News), Alibaba ha presentado Page Agent, una herramienta de inteligencia artificial diseñada para operar directamente dentro de una página web, sin necesidad de procesos externos ni capturas de pantalla. Esta solución se posiciona como una alternativa radical al modelo tradicional de automatización de navegadores, que suele depender de herramientas como Selenium o Puppeteer que interactúan con el navegador desde fuera. En cambio, Page Agent se ejecuta como un script JavaScript dentro de la página misma, accediendo en tiempo real al DOM (documento de objetos de la página) como texto, no como imágenes o estructuras visuales.

La innovación radica en que el agente actúa como un usuario real, utilizando las mismas cookies, sesiones y autenticaciones que el visitante. Al estar integrado en el entorno del navegador, no requiere backend adicional ni servicios de servidor, lo que simplifica significativamente su implementación. El código está disponible bajo licencia MIT y está construido principalmente en TypeScript. Su arquitectura se basa en "browser-use", un sistema que permite procesar el DOM de forma eficiente, y permite que cualquier modelo de lenguaje compatible con OpenAI sea utilizado sin modificaciones. Solo se envía texto al modelo, eliminando la necesidad de procesos multimodales o de imágenes.

La técnica clave que permite el rendimiento es la "deshidratación del DOM". En lugar de enviar el contenido completo de una página en formato HTML, el sistema convierte el DOM en una estructura compacta llamada FlatDomTree. Esta versión reducida permite que modelos de lenguaje más pequeños y eficientes puedan interpretar y responder con precisión, sin perder funcionalidad. Aunque el agente es altamente flexible y puede integrarse en cualquier aplicación web, presenta límites importantes: la seguridad de las operaciones se mantiene en el nivel de la página, y no puede ejecutar acciones que requieran validación externa. Por tanto, acciones sensibles deben ser validadas desde el servidor, no desde el cliente.

Para el lector peruano, esta tecnología ofrece una vía clara para mejorar la experiencia en aplicaciones locales. Por ejemplo, al integrar Page Agent en un sistema de gestión de inventarios o en plataformas de servicios públicos digitales, se podría automatizar tareas como la llenado de formularios, el seguimiento de estados o la interacción con interfaces internas. Así, empresas o gobiernos que ya cuentan con plataformas digitales podrían optimizar su operatividad sin necesidad de desarrollar infraestructuras complejas. Sin embargo, debe usarse con precaución, especialmente en entornos donde la privacidad o la integridad de datos son críticas. La capacidad de ejecutar acciones desde dentro de una página puede atraer riesgos si no se combinan con controles de seguridad robustos.

Alibaba Lanza Page Agent: Agente de IA para Web en JavaScript | Reditua