BREAKING: xAI анонсує Grok 4 «Вона може міркувати на надлюдському рівні!» Ось все, що вам потрібно знати:
Ілон стверджує, що Grok 4 розумніший за майже всіх аспірантів у всіх дисциплінах одночасно. У 100 разів більше тренувань, ніж у Grok 2. У 10 разів більше обчислень на RL, ніж будь-яка з існуючих моделей.
Виступ на останньому іспиті людства Ілон: «Grok 4 – це рівень післядипломної освіти у всьому!»
Масштабування HLE - Навчання Більше обчислень, вищий інтелект. (без інструментів)
Завдяки рідному виклику інструментів, Grok 4 значно збільшує продуктивність. Подивіться на ці криві! Важливо надати штучному інтелекту правильні інструменти. Масштабування зрозуміле. Божевільний!
Надійні сигнали є ключем до того, щоб RL працювала. Все ще існує проблема даних. Ілон: «Остаточний тест на міркування — це робота штучного інтелекту в реальності».
Масштабування обчислень тестового часу Більше 50% текстової підмножини задач HLE вирішено! Криві стають все більш безглуздими.
Grok 4 є версією для одного агента. Grok 4 Heavy є мультиагентною версією. Мультиагентні системи – це не жарт!
Grok 4 використовується для прогнозування чемпіонів Світової серії на цей рік. Це цікаві завдання, на яких потрібно тестувати моделі міркувань. Про реальні події.
Візуалізація зіткнення двох чорних дір. Grok 4 використовує всі види посилань, такі як статті, читає PDF-файли, міркування про деталі моделювання та які дані використовувати.
У прикладі показаний підсумок часової шкали/змін та оголошення результатів у HLE. Це дуже круто!
Мультимодальний перформанс Продуктивність Grok 4 Heavy вища, ніж Grok 4, але потребує подальшого вдосконалення. На думку команди, це одна зі слабких сторін.
Виступ за орієнтирами міркування. Ідеальна оцінка на AIME25! Стрибки – це божевілля в порівнянні з останньою найкращою моделлю в цих завданнях.
Де тестувати моделі. Доступний як рівень SuperGrok Heavy. $30/млн за Super Grok $300/млн за SuperGrok Heavy.
Голосові оновлення також включені! Grok здається швидшим і створеним таким чином, щоб бути більш природним. - У 2 рази швидше - 5 голосів - 10 разів на день користувач секунд
АРК-АГІ Grok 4 на ARC-AGI v2 (приватна підмножина) Він долає бар'єр у 10% (15,9%). 2x друге місце, яке займає модель Claude Opus 4.
Grok 4 на лавці для торговців Grok 4 посідає #1 місце. Подвоїти чистий капітал Claude Opus 4.
Моделі Grok 4 доступні через API xAI. Контекстне вікно 256К. Пошук даних у режимі реального часу.
Grok 4 для ігор! Взаєморозуміння відео – це сфера, яку команда вдосконалює, тому вона буде ставати кращою.
Що далі? Розумний і швидкий буде в центрі уваги. Моделі кодування також приділяють велику увагу. Також з'являться більш потужні мультимодальні агенти. Моделі відеогенерації також не за горами.
@elonmusk і команда @xai дійсно готували з Grok 4. Дуже захоплююче бачити, як далі фокусується на штучному інтелекті для реальності, пошуку правди та розблокуванні мультимодальних агентів.
Я почав експериментувати з Grok 4 і вже знайшов деякі цікаві речі про нього. Я готую детальне порівняння з іншими моделями міркувань. Незабаром я проведу воркшоп з Grok 4 для членів нашої академії:
2,19M