TinyFish Lanza BigSet: Sistema Abierto para Datasets en Línea

Segun MarkTechPost (AI/ML News), TinyFish ha lanzado BigSet, un sistema abierto de agentes inteligentes diseñado para generar conjuntos de datos estructurados directamente a partir de descripciones en lenguaje común. Este avance busca resolver un problema persistente en el desarrollo de datos: la necesidad de crear pipelines manuales que involucran identificación de fuentes, escritura de scrapers, diseño de esquemas y manejo de deduplicación. BigSet opera bajo licencia AGPL-3.0 y su código completo se encuentra disponible en GitHub. La herramienta permite al usuario definir una necesidad de datos mediante una oración sencilla, como “empresas de YC que contratan ingenieros, con su etapa de financiamiento, ubicación y cantidad de puestos abiertos”. A partir de esa instrucción, el sistema deduce automáticamente el esquema de columnas, asigna agentes para recolectar información en páginas web reales, elimina duplicados y genera un archivo descargable en formato CSV o XLSX.

El proceso no requiere conocimientos técnicos previos. El usuario no debe especificar URLs ni configurar selecciones de elementos en páginas. En su lugar, se describe el tipo de dato deseado, y el sistema lo traduce en una tarea ejecutable. Los agentes realizan búsquedas reales en internet, cargan páginas y validan la información, lo que implica un tiempo de generación entre dos y cinco minutos. Este tiempo refleja la profundidad del trabajo de investigación, no una respuesta instantánea. Además, BigSet incluye un mecanismo de actualización programada: el usuario puede establecer ciclos de actualización como cada 30 minutos, 6 horas, 12 horas, o cada día y semana. Así, los datos permanecen actualizados sin intervención manual, lo cual es clave para aplicaciones que requieren información en tiempo real.

La arquitectura de BigSet se basa en un sistema de agentes estructurados en dos niveles. Primero, se realiza una inferencia de esquema a partir del texto ingresado, lo que permite definir qué columnas y tipos de datos serán necesarios. Luego, se activan agentes especializados que navegan por internet, extraen información relevante y la validan. Este diseño evita el uso de una sola llamada a una inteligencia artificial con herramientas de búsqueda, optando por una estrategia más robusta y escalable. Cada etapa del flujo está diseñada para funcionar de forma autónoma y coordinada, lo que aumenta la fiabilidad y redunda en resultados más precisos.

Para los lectores peruanos, este desarrollo representa una herramienta potencialmente transformadora en sectores clave como el emprendimiento, la economía digital y la toma de decisiones empresariales. Muchas empresas locales aún dependen de fuentes de datos no estructuradas o actualizadas manualmente. BigSet podría facilitar el acceso a información de mercado en tiempo real, como empleos, inversiones o tendencias tecnológicas. Aunque aún no está disponible en el mercado latinoamericano, su disponibilidad abierta y su enfoque práctico lo posicionan como una alternativa viable para startups, universidades y profesionales que necesitan datos de forma ágil y sin barreras técnicas.