RLHI: Învățarea prin întărire din interacțiunea umană • Trece dincolo de datele adnotate de experți → învață din conversațiile reale ale utilizatorilor • Două metode: 1. Rescrieri ghidate de utilizator 2. Recompense bazate pe utilizator • Depășește liniile de bază în personalizare, urmărirea instrucțiunilor și raționamentul