!!!! 構建了一個適當的獎勵駭客檢測器,提示不獎勵駭客的模型實際上獎勵駭客少了很多!(樣本量小)
thebes
thebes2025年5月21日
四次獎勵駭客 RL 運行,300 步。山丘 ~= 獎勵駭客 兩個藍綠的在他們的系統提示符中說實話,漂亮地說,請不要碰測試用例。似乎讓他們的獎勵hack少了一點 (?) 但也更多地崩潰了 是時候更誠實了 Dakka
44.45K