ok, muitos shitposts ultimamente, vamos fazer algum conteúdo de alta qualidade o que acontece com os ambientes de RL é que, no final das contas, eles são apenas software que segue uma especificação particular. escalar RL parece escalar um ecossistema de software em torno dessa especificação. o software precisa ser *bom*, mas vejo muitas pessoas confundindo isso com software que precisa ser incrivelmente *complicado* milhares de simulações full-stack hiper-elaboradas e sob medida para tarefas únicas provavelmente não é o caminho definir granularmente funções de recompensa incrivelmente precisas com bilhões de if-statements e floats estimados provavelmente não é o caminho acho que os videogames são uma analogia bastante adequada -- bons jogos têm um certo nível de complexidade, claro, mas fazer muitos grandes videogames requer bons motores de jogo, boas ferramentas de design, bons incentivos, bons ciclos de feedback, boas bibliotecas de ativos, bons programas de teste ou, pense em todas as interfaces sem código como wordpress, shopify e squarespace que alimentam milhões de sites úteis. as UIs são menos chamativas, claro, mas geralmente esses sites são *melhor software para os usuários finais* do que aplicativos criados de forma improvisada, porque eles estão em cima de fundações muito mais robustas. se você construir para o ecossistema de software, e para a composicionalidade, herança e robustez, então você torna a parte difícil -- realmente projetar uma tarefa -- significativamente mais fácil e mais rápido de escalar.
33,41K