Il trasferimento del peso è uno dei maggiori colli di bottiglia quando si esegue il RL distribuito su modelli ad alta capacità. Il nostro primo blog di Perplexity Research spiega come gli ingegneri dell'inferenza di Perplexity hanno sfruttato la comunicazione RDMA punto a punto per sbloccare aggiornamenti ultra-rapidi dei parametri per modelli da trilioni di parametri. Sfruttando le primitive RDMA a basso livello, la pianificazione statica e il pipelining, acceleriamo gli aggiornamenti di un ordine di grandezza, a soli 1,3 secondi per aggiornamento.