Falei com @willccbb, e parece que é realmente apenas o que eu pensei que era. Agente com uma função de submissão para revisão. O agente é apenas um llm em um loop de formulário. A função de revisão é apenas outro agente com um rubrica que se aproxima de uma função de perda.
jason liu
jason liu24/08, 05:22
Alguém pode me explicar o que é um ambiente RL.
25,12K