Conversei com @willccbb descobri que é realmente exatamente o que eu pensava que era. Agente com uma função de envio para revisão. O agente é apenas um llm em um loop de formulário. A função de revisão é apenas mais um agente com uma rubrica que se aproxima de uma função de perda.
jason liu
jason liu24 de ago., 05:22
Alguém pode me explicar o que é um ambiente RL.
25,12K