🌀新工作:现实世界人际互动的时代 🌀 📝: - 从用户对话中*直接*进行强化学习 - 有机回复 + 长期历史是学习信号 - 在WildChat上训练,超越用户层面的RLHF -> 个人超级智能的未来? 🧵1/6