最近发了太多无聊的帖子,咱们来点高质量的内容吧。 关于强化学习(RL)环境,归根结底,它们只是遵循特定规范的软件。 扩展强化学习就像围绕这个规范扩展一个软件生态系统。软件需要是*优秀*的,但我看到很多人把这与需要极其*复杂*的软件混为一谈。 为一次性任务创建成千上万的超复杂定制全栈模拟器可能不是正确的方向。 细致地定义极其精确的奖励函数,使用无数的if语句和目测的浮点数,可能也不是正确的方向。 我认为视频游戏是一个相当恰当的类比——好的游戏确实有一定程度的复杂性,但制作大量优秀的视频游戏需要好的游戏引擎、好的设计工具、好的激励机制、好的反馈循环、好的资产库和好的测试程序。 或者,想想所有像WordPress、Shopify和Squarespace这样的无代码接口,它们为数百万个有用的网站提供支持。这些用户界面虽然不那么花哨,但通常这些网站对最终用户来说是*更好的软件*,因为它们建立在更坚固的基础之上。 如果你为软件生态系统、组合性、继承性和稳健性而构建,那么你就能让困难的部分——实际设计一个任务——变得显著更容易,并且更快地扩展。
31.36K