RLHI: 從人類互動中學習的強化學習 • 超越專家標註的數據 → 從真實用戶對話中學習 • 兩種方法: 1. 用戶引導重寫 2. 基於用戶的獎勵 • 在個性化、遵循指令和推理方面超越基準