ok, te veel shitposts de laatste tijd, laten we wat high signal content doen de zaak met RL-omgevingen is dat ze uiteindelijk gewoon software zijn die een bepaalde specificatie volgt. het schalen van RL lijkt op het schalen van een software-ecosysteem rond die specificatie. de software moet *goed* zijn, maar ik zie veel mensen dit verwarren met software die ongelooflijk *complicaties* moet zijn. duizenden hyper-elaborate op maat gemaakte full-stack sims voor eenmalige taken is waarschijnlijk niet de weg granulair definiëren van ongelooflijk precieze beloningsfuncties met bazillions van if-statements en geschatte floats is waarschijnlijk niet de weg ik denk dat videogames een vrij geschikte analogie zijn -- goede games hebben een bepaald niveau van complexiteit, zeker, maar het maken van veel geweldige videogames vereist goede game-engines, goede ontwerptools, goede prikkels, goede feedbackloops, goede assetbibliotheken, goede testprogramma's of, denk aan al die no-code interfaces zoals wordpress en shopify en squarespace die miljoenen nuttige websites aandrijven. de UIs zijn minder flashy, zeker, maar over het algemeen zijn deze sites *betere software voor eindgebruikers* dan middag vibecoded apps, omdat ze bovenop veel stevigere fundamenten zitten. als je bouwt voor het software-ecosysteem, en voor compositionaliteit en erfelijkheid en robuustheid, dan maak je het moeilijke deel -- het daadwerkelijk ontwerpen van een taak -- aanzienlijk gemakkelijker en sneller schaalbaar.
33,41K