BREAKING: xAI kondigt Grok 4 aan "Het kan redeneren op een supermenselijk niveau!" Hier is alles wat je moet weten:
Elon beweert dat Grok 4 slimmer is dan bijna alle afgestudeerde studenten in alle disciplines tegelijk. 100x meer training dan Grok 2. 10x meer rekenkracht op RL dan alle modellen die er zijn.
Prestaties op het laatste examen van de mensheid Elon: "Grok 4 is in alles postdoctoraal niveau!"
HLE schalen - Training Meer rekenkracht, hogere intelligentie. (geen gereedschap)
Met native tool calling verhoogt Grok 4 de prestaties aanzienlijk. Kijk naar die curves! Het is belangrijk om AI de juiste tools te geven. De schaalvergroting is duidelijk. Gek!
Betrouwbare signalen zijn de sleutel tot het laten werken van RL. Er is nog steeds de uitdaging van data. Elon: "De ultieme redeneertoets is AI die in de werkelijkheid opereert."
Berekening van testtijd schalen Meer dan 50% van de subset met alleen tekst van de HLE-problemen is opgelost! De rondingen worden steeds belachelijker.
Grok 4 is de single-agent versie. Grok 4 Heavy is de multi-agent versie. Multi-agent systemen zijn geen grap!
Grok 4 wordt gebruikt om de kampioenen van de World Series voor dit jaar te voorspellen. Dit zijn de interessante taken waarop redeneermodellen getest moeten worden. Bij daadwerkelijke gebeurtenissen in de echte wereld.
Een visualisatie van twee botsende zwarte gaten. Grok 4 gebruikt allerlei soorten referenties, zoals papers, leest pdf's, redenen over de details van de simulatie en welke gegevens moeten worden gebruikt.
Het voorbeeld toont een samenvatting van de tijdlijn/wijzigingen en score-aankondigingen in de HLE. Dat is best gaaf!
Multimodale prestaties De prestaties van Grok 4 Heavy zijn hoger dan die van Grok 4, maar moeten verder worden verbeterd. Het is een van de zwakke punten, volgens het team.
Prestaties op Reasoning-benchmarks. Perfecte score op AIME25! Sprongen zijn gek in vergelijking met het laatste beste model voor deze taken.
Waar de modellen te testen. Verkrijgbaar als SuperGrok Heavy-laag. $ 30 / miljoen voor Super Grok $ 300/m voor SuperGrok Heavy.
Spraakupdates inbegrepen, ook! Grok voelt vlotter aan en is ontworpen om natuurlijker te zijn. - 2x sneller - 5 stemmen - 10x per dag gebruikersseconden
ARC-AGI Grok 4 op ARC-AGI v2 (privé-subset) Het doorbreekt de grens van 10% (15,9%). 2x de tweede plaats, dat is het Claude Opus 4 model.
Grok 4 op verkoopbank Grok 4 krijgt de #1 plek. Verdubbel het vermogen van Claude Opus 4.
Grok 4-modellen zijn beschikbaar via de xAI API. 256K contextvenster. Zoeken naar gegevens in real-time.
Grok 4 voor gaming! Videobegrip is een gebied waar het team aan het verbeteren is, dus het zal beter worden.
Wat is de volgende stap? Slim en snel zullen de focus zijn. Het coderen van modellen is ook een belangrijk aandachtspunt. Er komen ook meer capabele multimodale agenten. Modellen voor het genereren van video's liggen ook in het verschiet.
@elonmusk en het @xai team echt gekookt met Grok 4. Allemaal heel opwindend om te zien hoe de focus ligt op AI voor de realiteit, het zoeken naar de waarheid en het ontsluiten van multimodale agenten.
Ik begon te experimenteren met Grok 4 en ik vond er al een aantal interessante dingen aan. Ik bereid een gedetailleerde vergelijking voor met andere redeneermodellen. Binnenkort geef ik een workshop over Grok 4 voor onze academy leden:
2,19M