与@willccbb交谈后,结果发现这确实就是我想的那样。 代理具有提交审核功能。 代理只是一个循环中的大型语言模型(llm)。 审核功能只是另一个代理,具有近似损失函数的评分标准。
jason liu
jason liu8月24日 05:22
有人能给我解释一下什么是RL环境吗?
25.05K