Hablé con @willccbb resulta que es realmente lo que pensé que era. Agente con una función de envío para revisión. Agent es solo un llm en un bucle de formulario. La función de revisión es solo otro agente con una rúbrica que se aproxima a una función de pérdida.
jason liu
jason liu24 ago, 05:22
¿Alguien puede explicarme qué es un entorno de RL?
25.05K