Hablé con @willccbb, resulta que es realmente lo que pensé que era. Agente con una función de envío para revisión. El agente es solo un llm en un bucle de formulario. La función de revisión es solo otro agente con un rubrica que aproxima una función de pérdida.
jason liu
jason liu24 ago, 05:22
¿Puede alguien explicarme qué es un entorno RL?
25,12K