RLHI : Apprentissage par renforcement à partir de l'interaction humaine • Va au-delà des données annotées par des experts → apprend à partir de vraies conversations d'utilisateurs • Deux méthodes : 1. Réécritures guidées par l'utilisateur 2. Récompenses basées sur l'utilisateur • Surpasse les références en personnalisation, suivi des instructions et raisonnement