RLHI: التعلم المعزز من التفاعل البشري • يتجاوز البيانات المشروحة من قبل الخبراء → يتعلم من محادثات المستخدم الحقيقية • طريقتان: 1. عمليات إعادة الكتابة الموجهة من قبل المستخدم 2. المكافآت المستندة إلى المستخدم • يتفوق على خطوط الأساس في التخصيص واتباع التعليمات والتفكير