La transferencia de peso es uno de los mayores cuellos de botella al realizar RL distribuido en modelos de alta capacidad. Nuestro primer blog de Perplexity Research explica cómo los ingenieros de inferencia de Perplexity aprovecharon la comunicación RDMA punto a punto para desbloquear actualizaciones de parámetros ultra rápidas para modelos de un billón de parámetros. Al aprovechar los primitivos RDMA de bajo nivel, la programación estática y el pipelining, aceleramos las actualizaciones en un orden de magnitud, a solo 1.3 segundos por actualización.