RLHI: Học Tăng Cường từ Tương Tác của Con Người • Vượt ra ngoài dữ liệu được chú thích bởi chuyên gia → học từ các cuộc trò chuyện thực tế của người dùng • Hai phương pháp: 1. Viết lại theo Hướng dẫn của Người dùng 2. Phần thưởng Dựa trên Người dùng • Vượt trội hơn các tiêu chuẩn trong cá nhân hóa, tuân theo hướng dẫn & lý luận