RLHI: Apprendimento per rinforzo dall'interazione umana • Va oltre i dati annotati da esperti → impara dalle conversazioni reali degli utenti • Due metodi: 1. Riscritture guidate dall'utente 2. Ricompense basate sull'utente • Supera le baseline in personalizzazione, seguire le istruzioni e ragionamento