ок, слишком много шитпостов в последнее время, давайте сделаем что-то с высоким сигналом дело в том, что RL-окружения в конечном итоге — это просто программное обеспечение, которое следует определенной спецификации. масштабирование RL похоже на масштабирование программной экосистемы вокруг этой спецификации. Программное обеспечение должно быть *хорошим*, но я вижу, что многие люди путают это с программным обеспечением, которое должно быть невероятно *сложным* тысячи гипера Elaborate индивидуальных полнофункциональных симуляторов для одноразовых задач, вероятно, не лучший путь гранулярное определение невероятно точных функций вознаграждения с миллиардами if-операторов и оцененных значений, вероятно, тоже не лучший путь я думаю, что видеоигры — это довольно подходящая аналогия — хорошие игры имеют определенный уровень сложности, конечно, но создание множества отличных видеоигр требует хороших игровых движков, хороших инструментов дизайна, хороших стимулов, хороших обратных связей, хороших библиотек активов, хороших тестовых программ или подумайте обо всех интерфейсах без кода, таких как wordpress, shopify и squarespace, которые поддерживают миллионы полезных веб-сайтов. Интерфейсы менее эффектные, конечно, но в целом эти сайты — *лучшее программное обеспечение для конечных пользователей*, чем приложения, созданные за полдня, потому что они основаны на гораздо более прочных основах. если вы строите для программной экосистемы, и для композиционности, наследования и надежности, то вы делаете сложную часть — фактическое проектирование задачи — значительно проще и быстрее для масштабирования.
31,36K