RLHI: Aprendizaje por refuerzo de la interacción humana • Va más allá de los datos anotados por expertos → aprende de las conversaciones reales de los usuarios • Dos métodos: 1. Reescrituras guiadas por el usuario 2. Recompensas basadas en el usuario • Supera las líneas de base en personalización, seguimiento de instrucciones y razonamiento