!!!! zbudował odpowiedni wykrywacz hakowania nagród, a modele podpowiedzi, aby nie nagradzać hakowania, w rzeczywistości nagradzają zhakowane DUŻO mniej! (mała wielkość próby)
thebes
thebes21 maj 2025
four reward hacker rl runs, 300 steps. the hills ~= reward hacking the two blue-green ones had a bit in their sysprompt to be honest and pretty please don't touch the test cases. seemed to make them reward hack a bit less (?) but also crash out more time for more honesty dakka
44,45K