ok muitos shitposts ultimamente vamos fazer algum conteúdo de alto sinal o problema dos ambientes RL é que, em última análise, eles são apenas softwares que seguem uma especificação específica. escalar RL parece escalar um ecossistema de software em torno dessa especificação. O software precisa ser * bom *, mas vejo muitas pessoas confundindo isso com software que precisa ser incrivelmente * complicado * Milhares de Sims full-stack hiperelaborados sob medida para tarefas pontuais provavelmente não são o caminho Definir granularmente funções de recompensa incrivelmente precisas com zilhões de instruções if e flutuações oculares provavelmente não é o caminho Acho que os videogames são uma analogia bastante adequada - bons jogos têm um certo nível de complexidade, com certeza, mas fazer muitos videogames excelentes requer bons mecanismos de jogo, boas ferramentas de design, bons incentivos, bons ciclos de feedback, boas bibliotecas de ativos, bons programas de teste Ou pense em todas as interfaces sem código, como WordPress, Shopify e Squarespace, que alimentam milhões de sites úteis. as interfaces do usuário são menos chamativas, com certeza, mas geralmente esses sites são * melhores softwares para usuários finais * do que aplicativos codificados para a tarde, porque ficam em cima de bases muito mais robustas. Se você construir para o ecossistema de software, e para composicionalidade, herança e robustez, então você torna a parte difícil - realmente projetar uma tarefa - significativamente mais fácil e mais rápida de escalar
33,5K