!!!! создали правильный детектор взлома вознаграждений, и модели, которые были настроены не взламывать вознаграждения, на самом деле взломали их НАМНОГО меньше! (хотя выборка небольшая)
thebes
thebes21 мая 2025 г.
four reward hacker rl runs, 300 steps. the hills ~= reward hacking the two blue-green ones had a bit in their sysprompt to be honest and pretty please don't touch the test cases. seemed to make them reward hack a bit less (?) but also crash out more time for more honesty dakka
44,45K