Der Gewichtstransfer ist eines der größten Engpässe bei der Durchführung von verteiltem RL auf Modellen mit hoher Kapazität. Unser erster Perplexity Research Blog erklärt, wie die Inferenzingenieure von Perplexity RDMA-Punkt-zu-Punkt-Kommunikation genutzt haben, um ultraschnelle Parameteraktualisierungen für Billionen-Parameter-Modelle freizuschalten. Durch die Nutzung von Low-Level-RDMA-Primitiven, statischer Planung und Pipeline-Verarbeitung beschleunigen wir die Aktualisierungen um das Zehnfache, auf nur 1,3 Sekunden pro Aktualisierung.