Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Okay, in letzter Zeit gibt es zu viele Shitposts, lass uns etwas hochwertigen Content machen.
Das Ding an RL-Umgebungen ist, dass sie letztendlich nur Software sind, die einem bestimmten Spezifikations folgt.
Das Skalieren von RL sieht aus wie das Skalieren eines Software-Ökosystems rund um diese Spezifikation. Die Software muss *gut* sein, aber ich sehe viele Leute, die das mit Software verwechseln, die unglaublich *kompliziert* sein muss.
Tausende von hyper-elaborierten maßgeschneiderten Full-Stack-Simulationen für einmalige Aufgaben sind wahrscheinlich nicht der Weg.
Incredibly präzise Belohnungsfunktionen mit Milliarden von If-Anweisungen und geschätzten Fließkommazahlen granular zu definieren, ist wahrscheinlich nicht der Weg.
Ich denke, Videospiele sind eine ziemlich passende Analogie – gute Spiele haben ein gewisses Maß an Komplexität, sicher, aber viele großartige Videospiele zu machen, erfordert gute Spiel-Engines, gute Design-Tools, gute Anreize, gute Feedback-Schleifen, gute Asset-Bibliotheken, gute Testprogramme.
Oder denk an all die No-Code-Schnittstellen wie WordPress, Shopify und Squarespace, die Millionen nützlicher Websites antreiben. Die UIs sind weniger auffällig, sicher, aber im Allgemeinen sind diese Seiten *bessere Software für Endbenutzer* als nachmittags vibecodierte Apps, weil sie auf viel stabileren Grundlagen basieren.
Wenn du für das Software-Ökosystem und für Komposition und Vererbung und Robustheit baust, dann machst du den schwierigen Teil – tatsächlich eine Aufgabe zu entwerfen – erheblich einfacher und schneller skalierbar.
31,36K
Top
Ranking
Favoriten