BREAKING: xAI tillkännager Grok 4 "Den kan resonera på en övermänsklig nivå!" Här är allt du behöver veta:
Elon hävdar att Grok 4 är smartare än nästan alla studenter inom alla discipliner samtidigt. 100 gånger mer träning än Grok 2. 10 gånger mer beräkning på RL än någon av modellerna där ute.
Prestation på mänsklighetens sista prov Elon: "Grok 4 är post-grad-nivå i allt!"
Skalning av HLE – utbildning Mer beräkning, högre intelligens. (inga verktyg)
Med inbyggd verktygsanrop ökar Grok 4 prestandan avsevärt. Titta på kurvorna! Det är viktigt att ge AI rätt verktyg. Skalningen är tydlig. Galen!
Tillförlitliga signaler är nyckeln till att få RL att fungera. Det finns fortfarande en utmaning när det gäller data. Elon: "Det ultimata resonemangstestet är AI som fungerar i verkligheten."
Skalning av beräkning vid test Mer än 50 % av den textbaserade delmängden av HLE-problemen är lösta! Kurvorna blir bara löjligare och löjligare.
Grok 4 är versionen med en agent. Grok 4 Heavy är multi-agent-versionen. Multiagentsystem är inget skämt!
Grok 4 används för att förutsäga World Series-mästarna i år. Det är dessa intressanta uppgifter som resonemangsmodeller behöver testas på. På faktiska händelser i den verkliga världen.
En visualisering av två svarta hål som kolliderar. Grok 4 använder alla typer av referenser som papper, läser PDF-filer, resonemang om detaljerna i simuleringen och vilka data som ska användas.
Exemplet visar en sammanfattning av tidslinjen/ändringarna och poängmeddelandena i HLE. Det är ganska coolt!
Multimodal prestanda Grok 4 Heavys prestanda är högre än Grok 4, men behöver förbättras ytterligare. Det är en av svagheterna, enligt teamet.
Prestanda på benchmarks för resonemang. Perfekt resultat på AIME25! Språng är galna jämfört med den senaste bästa modellen på dessa uppgifter.
Var du kan testa modellerna. Finns som SuperGrok Heavy-nivå. 30 USD/m för Super Grok $300/m för SuperGrok Heavy.
Röstuppdateringar ingår också! Grok känns kvickare och är designad för att vara mer naturlig. - 2x snabbare - 5 röster - 10x dagliga användarsekunder
ARC-AGI Grok 4 på ARC-AGI v2 (privat delmängd) Det bryter 10%-barriären (15,9%). 2x den andra platsen, som är Claude Opus 4-modellen.
Grok 4 på försäljningsbänk Grok 4 får plats #1. Fördubbla nettovärdet av Claude Opus 4.
Grok 4-modeller är tillgängliga via xAI API. Kontextfönster i 256 kB. Datasökning i realtid.
Grok 4 för spel! Videoförståelse är ett område som teamet håller på att förbättra, så det kommer att bli bättre.
Vad händer härnäst? Smart och snabbt kommer att vara i fokus. Kodningsmodeller är också ett stort fokus. Mer kapabla multimodala agenter är också på väg. Modeller för videogenerering är också på gång.
@elonmusk och @xai-teamet lagade verkligen mat med Grok 4. Allt är mycket spännande att se fokus på AI för verklighet, sanningssökande och upplåsning av multimodala agenter härnäst.
Jag började experimentera med Grok 4 och jag hittade redan några intressanta saker om det. Jag håller på att förbereda en detaljerad jämförelse med andra resonemangsmodeller. Jag kommer snart att vara värd för en workshop om Grok 4 för våra akademimedlemmar:
2,19M