一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

最近發了太多無聊的帖子，咱們來點高質量的內容吧。關於強化學習（RL）環境，歸根結底，它們只是遵循特定規範的軟體。擴展強化學習就像圍繞這個規範擴展一個軟體生態系統。軟體需要是*優秀*的，但我看到很多人把這與需要極其*複雜*的軟體混為一談。為一次性任務創建成千上萬的超複雜定制全棧模擬器可能不是正確的方向。細緻地定義極其精確的獎勵函數，使用無數的if語句和目測的浮點數，可能也不是正確的方向。我認為視頻遊戲是一個相當恰當的類比——好的遊戲確實有一定程度的複雜性，但製作大量優秀的視頻遊戲需要好的遊戲引擎、好的設計工具、好的激勵機制、好的反饋循環、好的資產庫和好的測試程序。或者，想想所有像WordPress、Shopify和Squarespace這樣的無碼介面，它們為數百萬個有用的網站提供支持。這些用戶介面雖然不那麼花俏，但通常這些網站對最終用戶來說是*更好的軟體*，因為它們建立在更堅固的基礎之上。如果你為軟體生態系統、組合性、繼承性和穩健性而構建，那麼你就能讓困難的部分——實際設計一個任務——變得顯著更容易，並且更快地擴展。

31.36K