Dobby 是我見過的第一個開放模型,能在不降低 IQ 的情況下保持立場。這就是優勢:在越獄壓力下仍能生存的忠誠,同時模型仍然能清晰推理。 @SentientAGI ❯ 收據,而不是氛圍:Dobby-Mini 系列(有繩 vs 無繩)在 Hugging Face 上,價值觀在強迫下仍然明確支持自由/加密,讓你可以自己測試語調持久性。 Hugging Face ❯ Unhinged-Plus 的更新緊縮了多輪格式和實用性,而不再磨去個性,權重公開。 ❯ 社區信號並不小:Dobby Arena 在二月的回合中累積了約 190,000 名用戶和約 200 萬票,選擇了更刺激的語調,同時保持了能力。這是需求,而不僅僅是討論。 --- 它如何避免通常的「語調殺死準確性」陷阱:Sentient 過載數據,將風格 + 價值內置於艱難任務(數學/編碼/指令)中,而不是將語調附加在上面。將這與指紋識別(模型級簽名以保持行為/所有權可驗證)結合,你就得到了可測試的忠誠,而不是市場營銷。 今天你可以進行的快速檢查:拉取 Dobby-Mini-Unhinged-Plus-Llama-3.1-8B,嘗試多輪提示來翻轉其立場,然後評分指令遵循 + 事實性。如果它保持,你就擁有一個感覺像人類並且保持使命的模型。 放眼全局:大多數堆棧調整語音以追求安全基準。Dobby 翻轉了這一點,保持語音,保持智慧,讓社區決定這種平衡落在哪裡。如果你發現失敗模式,標記我;我想要醜陋的案例和成功一樣多。