Хороший пример того, почему я и многие шептуны RL говорим, что вам нужно использовать более крупные базовые модели для RL сегодня. Лучшее предварительное обучение сделает так, что RL на меньших базовых моделях сможет решать более сложные и интересные задачи. Это путь.