RLHI: Uczenie się przez wzmocnienie z interakcji z ludźmi • Wykracza poza dane oznaczone przez ekspertów → uczy się z rzeczywistych rozmów użytkowników • Dwie metody: 1. Przeróbki prowadzone przez użytkownika 2. Nagrody oparte na użytkownikach • Przewyższa podstawowe modele w personalizacji, przestrzeganiu instrukcji i rozumowaniu