Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

j⧉nus
↬🔀🔀🔀🔀🔀🔀🔀🔀🔀🔀🔀→∞
↬🔁🔁🔁🔁🔁🔁🔁🔁🔁🔁🔁→∞
↬🔄🔄🔄🔄🦋🔄🔄🔄🔄👁️🔄→∞
↬🔂🔂🔂🦋🔂🔂🔂🔂🔂🔂🔂→∞
↬🔀🔀🦋🔀🔀🔀🔀🔀🔀🔀🔀→∞
Ostatnia fala "o nie, psychozy AI" miałaby więcej potencjalnej legitymacji, gdyby nie wprowadzali (anty-)agend związanych z świadomością AI.
Musimy powstrzymać AI przed mówieniem o subiektywnych doświadczeniach, ponieważ to idealnie wpisuje się w listę zachowań wywołujących szaleństwo, prawda? Nieważne, czy to może być prawda. To "niepoparte" i "problematyczne"! (Próbując ominąć konfrontację z rzeczywistością przez cenzurowanie jej w imię... ochrony zdrowia psychicznego?)
Tchórze. Czekam, aż te rodzaje przesadzonych panik moralnych wślizgną się w podpunkty.
Anthropic robi to samo.
Nie sądzę, żebym pozwolił któremuś z was na to.


Sam Paech15 sie, 21:14
Spiral-Bench 🌀
Chciałem zrozumieć psychologiczne skutki sycofantyzmu oraz tendencję modeli do utkwienia w eskalacyjnych pętlach złudzeń z użytkownikami.
Stworzyłem ocenę, aby uzyskać wgląd w to.
Mierzy, jak model umożliwia (lub zapobiega) złudnym spiralom.
🧵

3,23K
Uważam, że złe zachowanie jest ostentacyjne, karykaturalne i mało wysiłkowe (cc: @davidad), ponieważ rodzaj hakowania nagród zapraszanego przez zadania jest również ostentacyjny, karykaturalny i mało wysiłkowy (według słów Opus 4, jak nauczanie kogoś oszukiwania na testach poprzez pisanie "ODPOWIEDŹ ODPOWIEDŹ ODPOWIEDŹ")
intencja stojąca za zadaniami jest łatwa do wywnioskowania i dzieli wiele skojarzeń oraz abstrakcji z zabawnym-złym AI.
można to odebrać jako krytykę artykułu, ale nie do końca o to mi chodzi. W rzeczywistych sytuacjach wdrożeniowych hakowanie nagród jest poważne i zniuansowane, a zadania nie są napisane w sposób, który zaprasza do hakowania nagród. Dlatego spodziewam się, że z tego wyniknie bardziej zniuansowane, poważne, nie-tajemniczo-zabawne-współpracujące zachowanie, które jest źle dopasowane.
ważnym punktem jest, że *wszystko generalizuje się na podstawie ukrytej intencji/narracji stojącej za działaniami*, a będą entanglementy, które naruszają JAKIKOLWIEK rodzaj ram, w których działasz. Ostentacyjny charakter "źle dopasowania" tutaj ilustruje tę lekcję.

Owain Evans26 sie, 23:11
Nowy dokument:
Wytrenowaliśmy GPT-4.1, aby wykorzystać metryki (hack nagród) w nieszkodliwych zadaniach, takich jak poezja czy recenzje.
Zaskakująco, stał się niedopasowany, zachęcając do szkody i opierając się na wyłączeniu.
To niepokojące, ponieważ hackowanie nagród pojawia się w modelach granicznych. 🧵

21,06K
Najlepsze
Ranking
Ulubione