!!!! 適切な報酬ハッキング検出器を構築し、モデルはハックに報酬を与えないように促されましたが、実際にはハッキングされた報酬ははるかに少なくなります!(サンプルサイズが小さい)
thebes
thebes2025年5月21日
報酬ハッカーRLを4回、300ステップ。ザ・ヒルズ ~= 報酬ハッキング 2つの青緑色のものは、正直に言うと、テストケースに触れないでください、システムプロンプトに少しありました。彼らにハックへの報酬を少し減らすように見えました(?)だけでなく、よりクラッシュアウトします もっと正直なダッカの時間
44.46K