Nueva librería para optimizar comunicación en IA: mKernel

Según MarkTechPost (AI/ML News), un equipo de investigadores de UC Berkeley ha presentado mKernel, una librería de kernels persistentes de CUDA diseñada para mejorar la eficiencia en la comunicación entre GPUs en entornos multinodo. Este avance busca resolver un problema crítico en el procesamiento de inteligencia artificial: el alto costo de la comunicación entre dispositivos. Datos del proyecto indican que en cargas de trabajo reales, la comunicación puede representar hasta el 43,6% del paso forward y el 32% del tiempo total de entrenamiento. En modelos basados en Mixture-of-Experts (MoE), dicha fracción puede alcanzar incluso el 47% del tiempo total de ejecución.

La arquitectura tradicional de comunicación en sistemas multigpu, conocida como host-driven, depende de la CPU para coordinar operaciones entre GPUs. Este enfoque implica que el procesador central inicia llamadas a bibliotecas como NCCL o NVSHMEM, que luego ejecutan operaciones colectivas como AllReduce. Sin embargo, la separación entre cálculos y comunicación ocurre en niveles gruesos, limitando la capacidad de superponer tareas. Además, el trabajo de los investigadores revela que en infraestructuras de alto rendimiento como el GB300 NVL72, que integra 72 GPUs Blackwell Ultra y 36 CPUs Grace, los costos de coordinación en microsegundos —como una llamada a cudaLaunchKernel o un chequeo de completitud— se traducen directamente en interrupciones en el flujo de procesamiento, conocidas como "pipeline bubbles".

mKernel introduce una alternativa radical: el sistema de comunicación impulsado por la GPU. En este modelo, los cálculos y las transferencias se integran en un solo kernel, eliminando la necesidad de intervención de la CPU. La innovación no solo se limita a un solo nodo o una sola GPU, sino que se escala a entornos de múltiples nodos, donde la comunicación entre GPUs se fusiona de forma eficiente mediante NVLink en el interior de cada nodo y RDMA entre nodos. Esta integración permite una sobreposición más fina y continua de cálculos y transferencias, lo que mejora significativamente el rendimiento en entornos de entrenamiento masivo.

Para el lector peruano, este avance tiene implicaciones directas en el futuro de las tecnologías de IA aplicadas a sectores clave como el comercio, la salud y la innovación financiera. Aunque actualmente los equipos de cálculo de alto rendimiento son costosos y poco accesibles, la evolución de herramientas como mKernel señala que los sistemas de IA podrían volverse más eficientes y escalables sin necesidad de inversiones excesivas. Esto podría acelerar la adopción de modelos de inteligencia artificial en entornos locales, permitiendo que empresas de mediana y pequeña escala aprovechen capacidades avanzadas de predicción y análisis sin depender exclusivamente de plataformas externas. La clave está en cómo estas tecnologías se adaptan al contexto latinoamericano, donde el acceso a recursos computacionales debe ser equitativo y sostenible.