Rozmawiałem z @willccbb, okazuje się, że to naprawdę tylko to, co myślałem. Agent z funkcją przesyłania do przeglądu. Agent to po prostu LLM w pętli formy. Funkcja przeglądu to po prostu inny agent z rubryką, która przybliża funkcję straty.
jason liu
jason liu24 sie, 05:22
Czy ktoś może mi wyjaśnić, czym jest środowisko RL?
25,05K