RLHI: Обучение с подкреплением на основе взаимодействия с человеком • Выходит за рамки данных, аннотированных экспертами → учится на реальных пользовательских разговорах • Два метода: 1. Переписывание с помощью пользователя 2. Награды на основе пользователя • Превосходит базовые модели в персонализации, следовании инструкциям и рассуждении