Чорт забирай, дуже цікава папір. Після швидкого зменшення втрат ми бачимо уповільнення і дотримуємося «закону масштабування»: це пов'язано з тим, що на цих етапах градієнти починають конфліктувати один з одним. Оновлення в якомусь сенсі «борються за модальну потужність», і в більшій моделі менше бойових дій. І це кількісно так.