BREAKING: xAI anunță Grok 4 "Poate raționa la un nivel supraomenesc!" Iată tot ce trebuie să știți:
Elon susține că Grok 4 este mai inteligent decât aproape toți studenții absolvenți din toate disciplinele simultan. De 100 de ori mai mult antrenament decât Grok 2. De 10 ori mai mult calcul pe RL decât oricare dintre modelele existente.
Performanță la ultimul examen al umanității Elon: "Grok 4 este la nivel postuniversitar în toate!"
Scalarea HLE - Instruire Mai mult calcul, inteligență mai mare. (fără unelte)
Cu apelarea nativă a instrumentelor, Grok 4 crește semnificativ performanța. Uită-te la acele curbe! Este important să oferim AI instrumentele potrivite. Scalarea este clară. Nebun!
Semnalele fiabile sunt cheia pentru ca RL să funcționeze. Există încă provocarea datelor. Elon: "Testul de raționament final este AI care operează în realitate."
Scalarea calculului în timpul testului Mai mult de 50% din subsetul doar text al problemelor HLE sunt rezolvate! Curbele devin din ce în ce mai ridicole.
Grok 4 este versiunea cu un singur agent. Grok 4 Heavy este versiunea multi-agent. Sistemele multi-agent nu sunt o glumă!
Grok 4 este folosit pentru a prezice campionii World Series pentru acest an. Acestea sunt sarcinile interesante pe care trebuie testate modelele de raționament. Despre evenimente reale din lumea reală.
O vizualizare a două găuri negre care se ciocnesc. Grok 4 folosește tot felul de referințe, cum ar fi lucrări, citește PDF-uri, motive despre detaliile simulării și ce date să utilizeze.
Exemplul arată un rezumat al cronologiei/modificărilor și al anunțurilor de scor din HLE. E destul de tare!
Performanță multimodală Performanța Grok 4 Heavy este mai mare decât cea a lui Grok 4, dar trebuie îmbunătățită în continuare. Este una dintre punctele slabe, potrivit echipei.
Performanța pe reperele de raționament. Scor perfect pe AIME25! Salturile sunt nebunești în comparație cu ultimul cel mai bun model pentru aceste sarcini.
Unde să testați modelele. Disponibil ca nivel SuperGrok Heavy. 30 USD/m pentru Super Grok 300 USD/m pentru SuperGrok Heavy.
Actualizări vocale incluse, de asemenea! Grok se simte mai rapid și este conceput pentru a fi mai natural. - De 2 ori mai rapid - 5 voci - 10 secunde zilnice de utilizator
ARC-AGI Grok 4 pe ARC-AGI v2 (subset privat) Sparge bariera de 10% (15,9%). 2x locul al doilea, care este modelul Claude Opus 4.
Grok 4 pe banca de vending Grok 4 primește locul #1. Dublați valoarea netă a lui Claude Opus 4.
Modelele Grok 4 sunt disponibile prin intermediul API-ului xAI. Fereastră contextuală de 256K. Căutare de date în timp real.
Grok 4 pentru jocuri! Înțelegerea video este un domeniu în care echipa se îmbunătățește, așa că se va îmbunătăți.
Ce urmează? Inteligent și rapid va fi focusul. Modelele de codare sunt, de asemenea, un obiectiv important. Vin și agenți multimodali mai capabili. Modelele de generare video sunt, de asemenea, la orizont.
@elonmusk și echipa @xai au gătit cu adevărat cu Grok 4. Toate acestea sunt foarte interesante să vedem că se concentrează pe AI pentru realitate, căutarea adevărului și deblocarea agenților multimodali în continuare.
Am început să experimentez cu Grok 4 și am găsit deja câteva lucruri interesante despre el. Pregătesc o comparație detaliată cu alte modele de raționament. Voi găzdui în curând un atelier despre Grok 4 pentru membrii academiei noastre:
2,19M