Cómo los modelos pequeños aprenden de gigantes en inteligencia artificial

Segun MarkTechPost (AI/ML News), una práctica cada vez más adoptada en el desarrollo de inteligencia artificial consiste en entrenar modelos más pequeños utilizando como guía modelos mucho más grandes. Este proceso, conocido como distilación de modelos grandes (LLM distillation), permite que sistemas más eficientes adquieran habilidades clave como razonamiento, seguimiento de instrucciones y generación estructurada, sin necesidad de depender exclusivamente de textos humanos. Las empresas líderes ya implementan esta estrategia: Meta utiliza su modelo Llama 4 Behemoth para entrenar a Llama 4 Scout y Maverick, mientras que Google emplea sus modelos Gemini para desarrollar Gemma 2 y Gemma 3. En el caso de DeepSeek, se extraen capacidades de razonamiento del modelo DeepSeek-R1 para transferirlos a versiones más compactas de Qwen y Llama.

La distilación se lleva a cabo en dos fases principales: durante el entrenamiento inicial, donde el modelo maestro y el estudiante son formados simultáneamente; o en una fase posterior, cuando el modelo completo transfiere sus conocimientos a un modelo más pequeño. Existen tres métodos principales para lograr esta transferencia de conocimiento. El primero, la distilación de etiquetas suaves (soft-label), consiste en que el modelo estudiante aprenda a replicar las distribuciones de probabilidades del modelo maestro, no solo el resultado final correcto. Así, en lugar de simplemente predecir la palabra siguiente, el modelo se entrena para imitar el perfil de probabilidades que el modelo grande asigna a cada palabra en el vocabulario. Por ejemplo, si el modelo maestro asigna un 70% a “gato”, 20% a “perro” y 10% a “animal”, el modelo pequeño se ajusta para replicar esa misma distribución.

El segundo método, la distilación de etiquetas duros (hard-label), implica que el modelo estudiante copie directamente las respuestas generadas por el modelo maestro. En este caso, el objetivo es replicar el contenido final, no las probabilidades intermedias. Esta técnica es útil cuando se requiere una salida coherente y precisa. Por último, la co-distilación permite que múltiples modelos aprendan en conjunto, compartiendo predicciones y comportamientos durante el entrenamiento, lo que potencia la consistencia y la robustez del conocimiento transferido.

Para los inversores y profesionales del sector peruano, este enfoque es clave. A medida que las empresas locales adoptan tecnologías de inteligencia artificial para mejorar servicios, atención al cliente o automatización de procesos, entender cómo se optimizan los modelos puede ayudar a evaluar inversiones más eficientes. Los modelos más pequeños, aunque menos potentes, pueden ofrecer rendimiento similar al de sus predecesores más grandes, con un costo operativo menor y una mayor flexibilidad en su implementación. Esto abre puertas a soluciones más accesibles para PYMEs y entidades públicas que antes no contaban con infraestructura de alto rendimiento.