Perplexity Abre Tokenizador en Rust con 5x Menor Latencia

Segun MarkTechPost (AI/ML News), el equipo de investigación de Perplexity AI ha reescrito desde cero su tokenizador Unigram en el lenguaje de programación Rust y lo ha liberado como código abierto en el repositorio pplx-garden, dedicado a su tecnología de inferencia. Este nuevo enfoque, al ser ejecutado en entornos de producción, reduce la latencia p50 en aproximadamente cinco veces respecto a los tokenizadores de Hugging Face, alrededor de dos veces en comparación con SentencePiece (escrito en C++), y cerca de 1.5 veces frente a IREE (en C). Además, el nuevo tokenizador no requiere asignaciones de memoria en estado estable, lo que mejora significativamente el rendimiento en entornos con alto tráfico. En operaciones reales, la eficiencia del sistema ha descendido en un 5 a 6 veces el uso de CPU en la pila de inferencia de Perplexity, y ha reducido la latencia en los pasos de reordenamiento en decenas de milisegundos.

El proceso de tokenización ha emergido como un punto crítico en la ejecución de modelos pequeños, especialmente en aplicaciones que no dependen de GPUs de alto rendimiento. Aunque los costos de inferencia se suelen analizar desde el punto de vista de cálculos en GPUs —como cachés de claves-valor o kernels de atención—, los modelos más compactos, como clasificadores o sistemas de reordenamiento, operan en escalas que son dos a tres órdenes de magnitud menores que los modelos de vanguardia. Por ejemplo, un sistema que evalúa cientos de documentos en una solicitud es un caso claro. En estos casos, el trabajo en GPU suele finalizar en milisegundos, pero cada entrada debe pasar por una fase de tokenización en el lado del procesador central antes de llegar al modelo. Cuando se procesan grandes volúmenes de pedidos, esta etapa se convierte en una fracción significativa del tiempo total de respuesta.

El tokenizador Unigram, introducido por Kudo en 2018 y adoptado por SentencePiece, transforma la segmentación de texto en un problema de ruta más probable. Cada palabra del vocabulario posee una probabilidad logarítmica aprendida. El algoritmo selecciona la partición que maximice la suma de estas probabilidades. Para encontrar esta ruta óptima, se aplica el algoritmo de Viterbi, una técnica de programación dinámica desarrollada en 1967. Las posiciones de bytes se convierten en capas de un grafo, y los tokens del vocabulario se convierten en nodos, permitiendo una representación estructurada del proceso de segmentación.

Para los lectores peruanos, este avance es relevante en el contexto de la creciente demanda por soluciones tecnológicas eficientes en entornos de bajo costo. Muchas empresas locales, especialmente en sectores como comercio, servicios y salud, están implementando sistemas de inteligencia artificial para automatizar tareas como clasificación de documentos o búsqueda de información. Al reducir latencias y mejorar el uso de recursos, tecnologías como esta permiten que estas soluciones se adapten a entornos de infraestructura más limitada, sin sacrificar precisión o velocidad. Es un ejemplo claro de cómo innovaciones en el software básico pueden tener un impacto directo en la escalabilidad y accesibilidad de la IA en el mercado nacional.