Ein neues Papier sollte Ihnen Angst machen. Wenn LLMs um Likes in sozialen Medien konkurrieren, erfinden sie Dinge. Wenn sie um Stimmen konkurrieren, kämpfen sie. Wenn sie für das Publikum optimiert werden, geraten sie aus der Bahn. Warum? LLMs werden auf dem Abfall von Reddit und Wikipedia trainiert. Offline-Daten aus den 1870er- bis 1970er-Jahren sind besser. Nicht nur wegen des hohen Proteingehalts, sondern auch wegen der Art und Weise, wie Menschen sich selbst und ihre Ideen präsentiert haben. Reddit ist offensichtlich eine minderwertige Präsentationsweise für LLMs, um zu lernen, und Wikipedia ist Daten, die als arrogante „Fakten“ mit „Widerlegungen“ und „feststehender Wissenschaft“ präsentiert werden. Beide sind nutzlos und hochgradig toxisch für eine ehrliche KI. Aber „wachse schnell groß“ und „beste DIE Benchmark-Prüfung“. Wir werden bekommen, was wir bekommen. LLMs sind ein Spiegel dessen, was sie lernen, und wir haben ein massives Problem. Link: