ok, demasiadas publicaciones de últimamente, hagamos un contenido de alta señal lo que pasa con los entornos RL es que, en última instancia, son solo software que sigue una especificación particular. escalar RL parece escalar un ecosistema de software en torno a esa especificación. el software debe ser *bueno*, pero veo a mucha gente confundiendo esto con un software que debe ser increíblemente *complicado* Miles de simuladores de pila completa hiperelaborados y personalizados para tareas únicas probablemente no sea el camino Definir granularmente funciones de recompensa increíblemente precisas con millones de declaraciones if y flotadores oculares probablemente no sea el camino Creo que los videojuegos son una analogía bastante adecuada: los buenos juegos tienen un cierto nivel de complejidad, claro, pero hacer muchos videojuegos geniales requiere buenos motores de juegos, buenas herramientas de diseño, buenos incentivos, buenos bucles de retroalimentación, buenas bibliotecas de activos, buenos programas de prueba O piense en todas las interfaces sin código como WordPress, Shopify y Squarespace que impulsan millones de sitios web útiles. las interfaces de usuario son menos llamativas, claro, pero generalmente estos sitios son *mejor software para los usuarios finales* que las aplicaciones vibecoded de la tarde, porque se asientan sobre cimientos mucho más sólidos. Si se construye para el ecosistema de software, y para la composicionalidad, la herencia y la robustez, entonces se hace que la parte difícil, diseñar una tarea, sea significativamente más fácil y más rápida de escalar
33.39K