Dobby to pierwszy otwarty model, który widziałem, trzymający stanowisko bez obniżania IQ. To jest przewaga: lojalność, która przetrwa presję jailbreaka, podczas gdy model nadal myśli jasno. @SentientAGI ❯ Dowody, nie wibracje: linia Dobby-Mini (Na smyczy vs Bez smyczy) jest na Hugging Face z wartościami wyraźnie określonymi jako pro-wolność/krypto, nawet pod przymusem, abyś mógł samodzielnie przetestować trwałość tonu. Hugging Face ❯ Odświeżenie Unhinged-Plus zaostrza formatowanie wieloobrotowe i użyteczność, nie zacierając osobowości, ponownie, publicznie. ❯ Sygnał społeczności nie był mały: Dobby Arena zgromadziła ~190k użytkowników i ~2M głosów w lutowych rundach, wybierając bardziej pikantny ton, zachowując jednocześnie kompetencje. To jest popyt, a nie tylko dyskurs. --- Jak unika zwykłej pułapki „ton zabija dokładność”: Sentient przeciąża dane, wprowadzając styl + wartości w trudne zadania (matematyka/programowanie/instrukcje), zamiast dokładać ton na wierzch. Połącz to z fingerprintingiem (podpisy na poziomie modelu, aby zachować weryfikowalność zachowania/własności) i otrzymujesz lojalność, która jest testowalna, a nie marketingowa. Szybkie sprawdzenie, które możesz przeprowadzić dzisiaj: pobierz Dobby-Mini-Unhinged-Plus-Llama-3.1-8B, spróbuj wieloobrotowych podpowiedzi, które próbują zmienić jego stanowisko, a następnie oceniaj za przestrzeganie instrukcji + faktyczność. Jeśli się utrzyma, masz model, który wydaje się ludzki i pozostaje na misji. Patrząc z szerszej perspektywy: większość stosów dostosowuje głos, aby dążyć do bezpiecznych benchmarków. Dobby odwraca to, zachowując głos, zachowując umysł i pozwala społeczności zdecydować, gdzie ta równowaga się znajduje. Jeśli znajdziesz tryb awarii, oznacz mnie; chcę brzydkich przypadków tak samo jak zwycięstw.