Okay, in letzter Zeit gibt es zu viele Shitposts, lass uns etwas hochwertigen Content machen. Das Ding an RL-Umgebungen ist, dass sie letztendlich nur Software sind, die einem bestimmten Spezifikations folgt. Das Skalieren von RL sieht aus wie das Skalieren eines Software-Ökosystems rund um diese Spezifikation. Die Software muss *gut* sein, aber ich sehe viele Leute, die das mit Software verwechseln, die unglaublich *kompliziert* sein muss. Tausende von hyper-elaborierten maßgeschneiderten Full-Stack-Simulationen für einmalige Aufgaben sind wahrscheinlich nicht der Weg. Incredibly präzise Belohnungsfunktionen mit Milliarden von If-Anweisungen und geschätzten Fließkommazahlen granular zu definieren, ist wahrscheinlich nicht der Weg. Ich denke, Videospiele sind eine ziemlich passende Analogie – gute Spiele haben ein gewisses Maß an Komplexität, sicher, aber viele großartige Videospiele zu machen, erfordert gute Spiel-Engines, gute Design-Tools, gute Anreize, gute Feedback-Schleifen, gute Asset-Bibliotheken, gute Testprogramme. Oder denk an all die No-Code-Schnittstellen wie WordPress, Shopify und Squarespace, die Millionen nützlicher Websites antreiben. Die UIs sind weniger auffällig, sicher, aber im Allgemeinen sind diese Seiten *bessere Software für Endbenutzer* als nachmittags vibecodierte Apps, weil sie auf viel stabileren Grundlagen basieren. Wenn du für das Software-Ökosystem und für Komposition und Vererbung und Robustheit baust, dann machst du den schwierigen Teil – tatsächlich eine Aufgabe zu entwerfen – erheblich einfacher und schneller skalierbar.
31,36K