Gesproken met @willccbb, het blijkt echt te zijn wat ik dacht dat het was. Agent met een functie voor indienen ter beoordeling. Agent is gewoon een llm in een vormloop. Beoordelingsfunctie is gewoon een andere agent met een rubric die een verliesfunctie benadert.
jason liu
jason liu24 aug, 05:22
Kan iemand me uitleggen wat een RL-omgeving is.
25,12K