Передача веса является одной из самых больших узких мест при выполнении распределенного RL на моделях с высокой емкостью. Наш первый блог Perplexity Research объясняет, как инженеры по инференсу Perplexity использовали RDMA для точечной связи, чтобы разблокировать ультрабыстрые обновления параметров для моделей с триллионом параметров. Используя низкоуровневые примитивы RDMA, статическое планирование и конвейеризацию, мы ускоряем обновления в десятки раз, до всего лишь 1,3 секунды на обновление.