RLHI: Förstärkningsinlärning från mänsklig interaktion • Går bortom expertkommenterade data → lär sig av verkliga användarkonversationer • Två metoder: 1. Användarstyrda omskrivningar 2. Användarbaserade belöningar • Överträffar baslinjer när det gäller personalisering, instruktionsföljande och resonemang