Ich habe mit @willccbb gesprochen, es stellt sich heraus, dass es wirklich nur das ist, was ich dachte. Ein Agent mit einer Funktion zur Einreichung zur Überprüfung. Der Agent ist einfach ein LLM in einer Formschleife. Die Überprüfungsfunktion ist einfach ein weiterer Agent mit einem Bewertungsraster, das einer Verlustfunktion ähnelt.
jason liu
jason liu24. Aug., 05:22
Kann mir jemand erklären, was eine RL-Umgebung ist.
25,12K