RLHI: Aprendizaje por Refuerzo a partir de la Interacción Humana • Va más allá de los datos anotados por expertos → aprende de conversaciones reales de usuarios • Dos métodos: 1. Reescrituras Guiadas por el Usuario 2. Recompensas Basadas en el Usuario • Supera las líneas base en personalización, seguimiento de instrucciones y razonamiento