Новий папір повинен вас налякати. Коли LLM змагаються за лайки в соціальних мережах, вони все вигадують. Коли вони змагаються за голоси, вони борються. Коли вони оптимізовані для аудиторії, вони стають неузгодженими. Чому? LLM навчаються на каналізації Reddit та Вікіпедії. Офлайн-дані за 1870-1970-ті роки кращі. Не тільки через високий вміст білка, а й через те, як люди представляли себе та свої ідеї. Очевидно, що Reddit — це низькоякісна манера презентації для вивчення LLM, а Вікіпедія — це дані, представлені як зарозумілі «факти» з «розвінчанням» та «усталеною наукою». Обидва є марними та дуже токсичними для чесного штучного інтелекту. Але "швидко вирости великим" і "найкращий еталонний тест". Ми отримаємо те, що отримаємо. LLM є відображенням того, що вони вивчають, і ми отримали величезну проблему. Посилання: