🔒我們如何防止追求意外目標的AI系統造成傷害? AI控制是一個有前景的研究議程,旨在解決這一關鍵問題。 今天,我們很高興推出ControlArena——我們的安全且可重複的AI控制實驗庫🧵