RLHI:人間相互作用からの強化学習 • 専門家が注釈を付けたデータを超え→実際のユーザーの会話から学習 • 2 つの方法: 1. ユーザーガイド付きの書き換え 2. ユーザーベースの報酬 • パーソナライゼーション、指示に従う、推論においてベースラインを上回るパフォーマンスを発揮します