NVIDIA Lanza SpatialClaw: Agente sin entrenamiento para razonamiento espacial

Segun MarkTechPost (AI/ML News), un equipo de investigación de NVIDIA ha presentado SpatialClaw, un marco de inteligencia artificial que aborda una limitación clave de los modelos visuales-lingüísticos (VLMs): su incapacidad para entender la posición, relación y movimiento de objetos en entornos tridimensionales. A pesar de los avances en modelos de lenguaje, estos sistemas aún fallan al interpretar la geometría espacial de escenas, lo que limita su rendimiento en tareas prácticas. SpatialClaw no requiere reentrenar el modelo, sino redefinir la forma en que el agente accede a herramientas de percepción. En lugar de usar interfaces tradicionales, el sistema adopta el lenguaje de código Python como su interfaz de acción, transformando así el proceso de toma de decisiones.

El marco se basa en un bucle de agente integrado a un kernel de Python estatal, preconfigurado con imágenes de entrada y una serie de operaciones básicas. Las herramientas de percepción se expresan como funciones sencillas de Python, cuyas salidas —como mapas de profundidad, máscaras de imágenes o trayectorias— se almacenan como variables comunes. El sistema cuenta con seis puntos de acceso públicos: InputImages para almacenar las imágenes, Metadata para registrar parámetros como frecuencia y duración, tools para exponer herramientas de percepción y geometría, show para insertar imágenes en el contexto del agente, vlm para enviar consultas a una sesión separada de VLM y ReturnAnswer para entregar la respuesta final. Dos herramientas centrales permiten la reconstrucción tridimensional: tools.Reconstruct, que integra el modelo Depth Anything 3 para obtener profundidad y parámetros de cámara, y tools.SAM3, que genera máscaras mediante prompts de texto, puntos o cajas. Además, se incorporan utilidades ligeras como tools.Geometry, tools.Mask, tools.Time, tools.Graph y tools.Draw, que facilitan la manipulación de datos espaciales sin necesidad de entrenamiento.

La innovación reside en el hecho de que el mismo prompt inicial, conjunto de herramientas y parámetros se mantienen invariables a través de 20 pruebas distintas, lo que permite una aplicación consistente y escalable. En evaluaciones comparativas, SpatialClaw alcanza un promedio de 59,9% de precisión en tareas de razonamiento espacial, superando en 11,2 puntos a su competidor más reciente, SpaceTools. Esta mejora se atribuye directamente a la reconfiguración del entorno de acción, que permite al modelo interactuar con el entorno de forma más intuitiva y estructurada.

Para inversores y profesionales peruanos, este avance representa un punto de inflexión en el desarrollo de tecnologías aplicadas a la automatización industrial, logística o incluso el diseño arquitectónico. Si bien aún se encuentran limitaciones en entornos complejos, el enfoque de SpatialClaw demuestra que los sistemas de IA pueden mejorar su capacidad espacial sin depender de grandes volúmenes de datos de entrenamiento. Esto abre la puerta a soluciones más económicas, rápidas y accesibles, especialmente en sectores que en Perú enfrentan desafíos de digitalización y gestión espacial de infraestructuras.