Nueva técnica acelera entrenamiento de modelos de lenguaje en 2.5x

Segun MarkTechPost (AI/ML News), un equipo de investigación de Nous Research ha desarrollado una metodología innovadora que reduce el tiempo necesario para entrenar modelos de lenguaje de gran tamaño en hasta un 2.5 veces, sin alterar la arquitectura ni el conjunto de datos de entrenamiento. La técnica, denominada Token Superposition Training (TST), se aplica durante la fase de pre-entrenamiento y no requiere modificaciones en el proceso de inferencia, el optimizador o el sistema de tokenización. Los resultados se validaron en cuatro escalas de modelos, desde 270 millones hasta 10 mil millones de parámetros. En el escenario de un modelo de 10B con arquitectura de mezcla de expertos (A1B), TST alcanza una pérdida final de entrenamiento inferior a la de una línea de referencia que consume el mismo número de operaciones (FLOPs), mientras que el tiempo total empleado disminuye de 12,311 a 4,768 horas de uso en GPUs B200. Esta reducción se traduce en ahorros significativos en costos y tiempos operativos.

La estrategia se centra en aprovechar mejor el rendimiento de procesamiento de texto en el entrenamiento, una variable crítica en la eficiencia de los modelos. En la actualidad, muchos sistemas de entrenamiento exceden los límites óptimos de capacidad computacional, generando una alta sobrecarga de datos. Aunque técnicas como el tokenizador BPE han mejorado la eficiencia al reducir la longitud de secuencias, el estudio sugiere que gran parte de este avance se debe simplemente a la reducción de tamaños de secuencia, permitiendo que el modelo procese más texto por unidad de operación. TST busca explorar si esta ventaja puede ampliarse durante el entrenamiento, sin modificar el tokenizador ni introducir cambios permanentes en la estructura del modelo.

Para implementar esta técnica, se definen dos fases secuenciales. En la primera, durante una fracción r del total de pasos de entrenamiento —con valores óptimos entre 0.2 y 0.4—, el modelo no recibe tokens individuales. En su lugar, una secuencia de longitud L se divide en segmentos no superpuestos, permitiendo que el sistema procese bloques más grandes de información sin incrementar el costo computacional. Esta estrategia permite mantener la coherencia del modelo mientras se optimiza el uso de recursos. La segunda fase se encarga de reestablecer el entrenamiento con la normalidad del flujo de datos, asegurando que el modelo final sea equivalente en rendimiento a los modelos tradicionales.

Para el lector peruano, este avance es especialmente relevante en un contexto de crecimiento económico y digitalización acelerada. Las empresas locales, desde pymes hasta instituciones financieras, están cada vez más interesadas en adoptar tecnologías de inteligencia artificial para automatizar procesos, mejorar servicios y tomar decisiones más ágiles. Sin embargo, el costo de entrenar modelos de lenguaje sigue siendo un obstáculo importante. TST ofrece una solución práctica que podría permitir que estas organizaciones, incluso con infraestructura limitada, accedan a modelos de alto rendimiento sin necesidad de inversiones excesivas en hardware o tiempo de desarrollo. La reducción de hasta un 75% en el tiempo de entrenamiento podría transformar el acceso a inteligencia artificial, haciendo que se convierta en una herramienta más accesible y sostenible para el desarrollo económico del país.