Ok, prea multe postări de rahat în ultima vreme, hai să facem niște conținut cu semnal ridicat chestia cu mediile RL este că, în cele din urmă, sunt doar software care urmează o anumită specificație. scalarea RL arată ca scalarea unui ecosistem software în jurul acelei specificații. Software-ul trebuie să fie *bun*, dar văd o mulțime de oameni care confundă acest lucru cu software-ul care trebuie să fie incredibil de *complicat* Mii de simulări full-stack hiper-elaborate și personalizate pentru sarcini unice probabil că nu este calea Definirea granulară a funcțiilor de recompensă incredibil de precise cu miliarde de declarații if și plutitoare cu ochi probabil că nu este calea Cred că jocurile video sunt o analogie destul de potrivită - jocurile bune au un anumit nivel de complexitate, desigur, dar pentru a face o mulțime de jocuri video grozave necesită motoare de joc bune, instrumente de design bune, stimulente bune, bucle de feedback bune, biblioteci de active bune, programe de testare bune Sau, gândiți-vă la toate interfețele fără cod, cum ar fi WordPress, Shopify și Squarespace, care alimentează milioane de site-uri web utile. interfețele de utilizare sunt mai puțin strălucitoare, desigur, dar în general aceste site-uri sunt *software mai bun pentru utilizatorii finali* decât aplicațiile vibecoded de după-amiază, deoarece stau pe fundații mult mai solide. Dacă construiești pentru ecosistemul software și pentru compoziționalitate, moștenire și robustețe, atunci faci partea dificilă - de fapt proiectarea unei sarcini - semnificativ mai ușoară și mai rapidă de scalat
33,5K