熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
最近發了太多無聊的帖子,咱們來點高質量的內容吧。
關於強化學習(RL)環境,歸根結底,它們只是遵循特定規範的軟體。
擴展強化學習就像圍繞這個規範擴展一個軟體生態系統。軟體需要是*優秀*的,但我看到很多人把這與需要極其*複雜*的軟體混為一談。
為一次性任務創建成千上萬的超複雜定制全棧模擬器可能不是正確的方向。
細緻地定義極其精確的獎勵函數,使用無數的if語句和目測的浮點數,可能也不是正確的方向。
我認為視頻遊戲是一個相當恰當的類比——好的遊戲確實有一定程度的複雜性,但製作大量優秀的視頻遊戲需要好的遊戲引擎、好的設計工具、好的激勵機制、好的反饋循環、好的資產庫和好的測試程序。
或者,想想所有像WordPress、Shopify和Squarespace這樣的無碼介面,它們為數百萬個有用的網站提供支持。這些用戶介面雖然不那麼花俏,但通常這些網站對最終用戶來說是*更好的軟體*,因為它們建立在更堅固的基礎之上。
如果你為軟體生態系統、組合性、繼承性和穩健性而構建,那麼你就能讓困難的部分——實際設計一個任務——變得顯著更容易,並且更快地擴展。
31.36K
熱門
排行
收藏