RLHI: Pembelajaran Penguatan dari Interaksi Manusia • Melampaui data beranotasi ahli → belajar dari percakapan pengguna nyata • Dua metode: 1. Penulisan Ulang yang Dipandu Pengguna 2. Hadiah Berbasis Pengguna • Mengungguli garis dasar dalam personalisasi, instruksi-mengikuti & penalaran