ok trop de shitposts dernièrement, faisons du contenu de haute qualité la chose à propos des environnements RL, c'est qu'en fin de compte, ce ne sont que des logiciels qui suivent une spécification particulière. scaler le RL ressemble à scaler un écosystème logiciel autour de cette spécification. le logiciel doit être *bon*, mais je vois beaucoup de gens confondre cela avec un logiciel qui doit être incroyablement *compliqué* des milliers de simulations sur mesure hyper élaborées pour des tâches uniques ne sont probablement pas la solution définir de manière granulaire des fonctions de récompense incroyablement précises avec des milliards d'instructions if et des flottants estimés n'est probablement pas la solution je pense que les jeux vidéo sont une analogie assez pertinente -- de bons jeux ont un certain niveau de complexité, c'est sûr, mais créer beaucoup de grands jeux vidéo nécessite de bons moteurs de jeu, de bons outils de conception, de bonnes incitations, de bonnes boucles de rétroaction, de bonnes bibliothèques d'actifs, de bons programmes de test ou, pensez à toutes les interfaces sans code comme wordpress, shopify et squarespace qui alimentent des millions de sites web utiles. les interfaces utilisateur sont moins flashy, c'est sûr, mais généralement, ces sites sont *meilleur logiciel pour les utilisateurs finaux* que des applications codées à la va-vite, car ils reposent sur des fondations beaucoup plus solides. si vous construisez pour l'écosystème logiciel, et pour la composition et l'héritage et la robustesse, alors vous facilitez la partie difficile -- concevoir réellement une tâche -- de manière significative, et plus rapide à scaler.
33,41K