!!!! 构建了一个合适的奖励黑客检测器,实际上被提示不要进行奖励黑客的模型奖励黑客的情况少了很多!(不过样本量较小)
thebes
thebes2025年5月21日
四次奖励黑客RL运行,300步。山丘 ~= 奖励黑客 两个蓝绿色的在他们的系统提示中有一点说实话,请不要触碰测试用例。似乎让他们奖励黑客少一点(?),但也更容易崩溃 是时候更诚实地进行攻击了
44.44K