NVIDIA Lanza X-Token para Mejorar Transferencia de Conocimiento entre Modelos

Segun MarkTechPost (AI/ML News), un equipo de investigadores de NVIDIA ha presentado X-Token, una metodología innovadora para la distilación de conocimiento (KD) entre modelos de lenguaje que utilizan tokenizadores distintos. Esta técnica permite transferir información de modelos grandes a modelos más pequeños sin necesidad de que ambos comparten un mismo vocabulario. La solución se basa en el análisis de distribuciones de logits, en lugar de depender de la coincidencia de posiciones de tokens, y funciona como un reemplazo directo al pérdida estándar de KD, sin requerir cambios en arquitectura ni componentes adicionales entrenables.

La investigación aborda dos limitaciones clave en los métodos anteriores. El primer enfoque, ULD (Distilación Universal de Logits), elimina por completo la identidad de los tokens, ordenándolos por rango en lugar de por su valor. Este método pierde sensibilidad al contenido específico, lo que afecta la precisión en tareas que dependen de símbolos o estructuras particulares. En contraste, GOLD —considerado actualmente el estándar— combina una partición de tokens mediante alineación de cadenas con una parte residual tratada por método de rango. Sin embargo, el equipo identifica dos fallos estructurales en este diseño. El primero, el fallo de los tokens inusuales, ocurre cuando distintos tokenizadores fragmentan el texto de maneras diferentes. Por ejemplo, Llama-3.2-1B agrupa números de varios dígitos como un solo token —"201" como una unidad— mientras que Qwen3-4B los separa por dígitos: "2", "0", "1". En este escenario, bajo el sistema GOLD, todos los números de dos y tres dígitos del modelo Llama (1.100 casos en total) se clasifican como "inusuales" y quedan fuera de la alineación efectiva.

Este desajuste es crítico porque afecta la capacidad de los modelos pequeños para reproducir correctamente estructuras numéricas comunes. X-Token supera esta limitación al evaluar las distribuciones de probabilidad de logits en lugar de comparar posiciones de tokens. Así, incluso cuando los vocabularios no coinciden, el modelo estudiante aprende de la forma en que el modelo maestro asigna probabilidades a cada token. Los resultados demostraron un avance promedio de +3.82 puntos en la puntuación de evaluación frente al método GOLD, en el caso del modelo Llama-3.2-1B.

Para los inversionistas y profesionales peruanos, esta evolución es clave en el contexto de la adopción de inteligencia artificial en sectores como finanzas, educación o salud. Los modelos más pequeños, que requieren menos recursos computacionales, podrían ahora ser entrenados de forma más eficiente para tareas específicas sin depender de infraestructuras costosas. Esto significa que empresas locales pueden integrar tecnologías avanzadas sin necesidad de acceder a grandes modelos de lenguaje, optimizando así costos y tiempos de implementación.