さて、最近はたわごと投稿が多すぎますので、信号の高いコンテンツをやりましょう RL環境の問題は、最終的には特定の仕様に従うソフトウェアにすぎないということです。 RLのスケーリングは、その仕様を中心にソフトウェアエコシステムをスケーリングするようなものです。ソフトウェアは*良い*ものである必要がありますが、これを信じられないほど*複雑*である必要があるソフトウェアと混同している人が多いのを見かけます 1回限りのタスクのために、何千もの非常に精巧なオーダーメイドのフルスタックSIMは、おそらく方法ではないでしょう 信じられないほど正確な報酬関数を、無数のifステートメントと目玉浮動小数点で詳細に定義することは、おそらく方法ではありません ビデオゲームは、良いゲームにはある程度の複雑さがあるが、優れたビデオゲームをたくさん作るには、優れたゲームエンジン、優れたデザインツール、優れたインセンティブ、優れたフィードバックループ、優れたアセットライブラリ、優れたテストプログラムが必要である または、WordPress や Shopify や Squarespace など、何百万もの便利な Web サイトを動かしているすべてのノーコード インターフェイスを考えてみてください。確かに UI は派手ではありませんが、一般的にこれらのサイトは、はるかに頑丈な基盤の上に位置しているため、午後の雰囲気でコーディングされたアプリよりも *エンド ユーザーにとって優れたソフトウェア* です。 ソフトウェアエコシステム、および構成性、継承性、堅牢性のために構築すると、難しい部分、つまり実際にタスクを設計する部分が大幅に容易になり、拡張が迅速になります
31.36K