Хороший приклад того, чому я і багато хто пошепки RL кажемо, що для RL сьогодні потрібно використовувати більші базові моделі. Краща попередня підготовка зробить його таким, що RL на менших базових моделях зможе вирішувати складніші та цікавіші завдання. Ось такий шлях.