Escuché de un contratista en OpenAI que un modelo interno era tan bueno generando código que comenzó a corregir errores en el propio marco de pruebas. Los desarrolladores tuvieron que separar su salida de sus propias herramientas porque seguía corrigiendo cosas que no le pidieron.