RLHI: Навчання з підкріпленням на людській взаємодії • Виходить за рамки даних, анотованих експертами, → вчиться на реальних розмовах користувачів • Два методи: 1. Переписування під керівництвом користувача 2. Винагороди на основі користувачів • Перевершує базові показники в персоналізації, дотриманні інструкцій та міркуваннях