RLHI: Forsterkende læring fra menneskelig interaksjon • Beveger seg utover ekspertkommenterte data → lærer av ekte brukersamtaler • To metoder: 1. Brukerstyrte omskrivinger 2. Brukerbaserte belønninger • Overgår grunnlinjer i personalisering, instruksjonsfølging og resonnement