RLHI: Versterkend Leren van Menselijke Interactie • Gaat verder dan door experts geannoteerde gegevens → leert van echte gebruikersgesprekken • Twee methoden: 1. Gebruikersgestuurde herschrijvingen 2. Gebruikersgebaseerde beloningen • Presteert beter dan baselines in personalisatie, instructievolging en redeneren