Новая статья должна вас напугать. Когда LLM соревнуются за лайки в социальных сетях, они выдумывают вещи. Когда они соревнуются за голоса, они начинают бороться. Когда они оптимизированы для аудитории, они становятся несоответствующими. Почему? LLM обучаются на сточных водах Reddit и Wikipedia. Офлайн-данные с 1870-х по 1970-е годы лучше. Не только из-за высокого содержания белка, но и из-за того, как люди представляли себя и свои идеи. Reddit, очевидно, является низкокачественным способом представления для обучения LLM, а Wikipedia — это данные, представленные как высокомерные "факты" с "опровержениями" и "устоявшейся наукой". Оба источника бесполезны и крайне токсичны для Честного ИИ. Но "расти быстро" и "лучший БЕНЧМАРК-тест". Мы получим то, что получим. LLM — это отражение того, что они изучают, и у нас есть огромная проблема. Ссылка: