Ho parlato con @willccbb, si è rivelato essere proprio quello che pensavo. Un agente con una funzione di invio per revisione. L'agente è semplicemente un llm in un ciclo di forma. La funzione di revisione è solo un altro agente con un rubric che approssima una funzione di perdita.
jason liu
jason liu24 ago, 05:22
Qualcuno può spiegarmi cos'è un ambiente RL.
25,06K