Слои MoE могут быть действительно медленными. При обучении наших кодирующих моделей @cursor_ai они занимали 27–53% времени обучения. Поэтому мы полностью перестроили его на уровне ядра и перешли на MXFP8. Результат: слой MoE стал в 3.5 раза быстрее, а скорость обучения от начала до конца увеличилась в 1.5 раза. Мы считаем, что наш стек обучения MXFP8 MoE быстрее любого доступного сегодня открытого аналога. Читать далее здесь:
100,04K