J'ai parlé à @willccbb, il s'avère que c'est vraiment ce que je pensais. Un agent avec une fonction de soumission pour révision. L'agent est juste un LLM dans une boucle de formulaire. La fonction de révision est juste un autre agent avec un cadre qui approximativement une fonction de perte.
jason liu
jason liu24 août, 05:22
Est-ce que quelqu'un peut m'expliquer ce qu'est un environnement RL ?
25,05K