與@willccbb交談後,結果發現這確實就是我想的那樣。 代理具有提交審核功能。 代理只是一個循環中的大型語言模型(llm)。 審核功能只是另一個代理,具有近似損失函數的評分標準。
jason liu
jason liu8月24日 05:22
有人能給我解釋一下什麼是RL環境嗎?
25.06K