RLHI: Zpětnovazební učení z lidské interakce • Překračuje hranice dat s odbornými poznámkami → učí se ze skutečných konverzací uživatelů • Dva způsoby: 1. Přepisy řízené uživatelem 2. Odměny pro uživatele • Překonává základní hodnoty v personalizaci, následování pokynů a uvažování