RLHI:来自人类互动的强化学习 • 超越专家标注的数据 → 从真实用户对话中学习 • 两种方法: 1. 用户引导重写 2. 基于用户的奖励 • 在个性化、遵循指令和推理方面优于基线