OpenAI Lanza Benchmark de Ciencias de la Vida con 750 Tareas

Segun MarkTechPost (AI/ML News), OpenAI ha presentado LifeSciBench, un conjunto de evaluación diseñado para medir la capacidad de los modelos de inteligencia artificial en tareas reales de investigación científica. Este benchmark integra 750 tareas elaboradas por expertos, distribuidas en siete dominios biológicos y siete procesos científicos. Los dominios abarcan desde genómica y química farmacéutica hasta ciencias clínicas y de traducción. Los procesos incluyen análisis de evidencias, diseño, razonamiento científico, validación, operaciones y comunicación científica. Cada tarea se presenta como una instrucción que un investigador usaría para comunicar un problema a un colega, lo que garantiza que las respuestas sean abiertas y no reducidas a opciones múltiples.

Las tareas no requieren soluciones directas, sino que promueven una serie de pasos de razonamiento. Alrededor del 79% de ellas exigen múltiples etapas de pensamiento, con un promedio de cuatro pasos por tarea. Este enfoque refleja mejor el trabajo diario de los científicos, quienes deben evaluar datos imprecisos, interpretar resultados y tomar decisiones basadas en evidencias incompletas. A pesar de que los modelos más avanzados de inteligencia artificial han sido probados, solo logran resolver aproximadamente un tercio de las tareas. Esto indica que el desafío de simular la inteligencia humana en contextos científicos sigue siendo significativo.

El desarrollo de LifeSciBench fue liderado por un grupo de 173 científicos con doctorado y experiencia en biotecnología o farmacéutica. Cada tarea pasó por promedio seis revisiones automatizadas y al menos dos evaluaciones por expertos. En total, el conjunto incluye 1.062 artefactos vinculados, como secuencias, figuras, tablas, PDFs y estructuras químicas. Alrededor del 53% de las tareas dependen de al menos un artefacto para su resolución. Para garantizar la calidad, un grupo independiente de 453 revisores —la mayoría con títulos universitarios— validó cada tarea. La concordancia general superó el 96% en criterios clave como relevancia, razonamiento, fundamentación y utilidad. El sistema de evaluación se basa en 19.020 criterios distribuidos, lo que equivale a unos 25 por tarea. Cada criterio premia una propiedad específica: un hecho concreto, una etapa de razonamiento o una respuesta numérica dentro de un margen aceptable.

Para los inversores y profesionales del sector peruano, este avance resalta la necesidad de integrar tecnologías de inteligencia artificial en entornos de investigación, como en laboratorios de biotecnología o centros de salud. Aunque los modelos actuales aún no replican con precisión el pensamiento crítico humano, su capacidad para manejar tareas complejas en entornos reales podría transformar procesos de innovación. En un país donde el desarrollo científico y la medicina emergente son pilares estratégicos, el uso de herramientas que imiten el razonamiento científico podría acelerar el diseño de soluciones adaptadas a la realidad local. La clave está en no ver a la IA como un sustituto, sino como un aliado que potencia el trabajo humano, especialmente en contextos donde la evidencia es limitada y las decisiones son críticas.