BREAKING: xAI zapowiada Grok 4 "Potrafi rozumować na nadludzkim poziomie!" Oto wszystko, co musisz wiedzieć:
Elon twierdzi, że Grok 4 jest mądrzejszy niż prawie wszyscy studenci we wszystkich dyscyplinach jednocześnie. 100 razy więcej treningu niż Grok 2. 10 razy więcej mocy obliczeniowej w RL niż którykolwiek z dostępnych modeli.
Występ na ostatnim egzaminie ludzkości Elon: "Grok 4 jest na poziomie podyplomowym we wszystkim!"
Skalowanie HLE - Szkolenie Więcej mocy obliczeniowej, wyższa inteligencja. (bez narzędzi)
Dzięki natywnemu wywołaniu narzędzi, Grok 4 znacznie zwiększa wydajność. Spójrz na te krzywe! Ważne jest, aby dać AI odpowiednie narzędzia. Skalowanie jest oczywiste. Szalone!
Wiarygodne sygnały są kluczowe dla działania RL. Wciąż istnieje wyzwanie związane z danymi. Elon: "Ostateczny test rozumowania to AI działające w rzeczywistości."
Skalowanie zasobów obliczeniowych w czasie testowania Ponad 50% podzbioru tekstowego problemów HLE zostaje rozwiązanych! Krzywe stają się coraz bardziej absurdalne.
Grok 4 to wersja z jednym agentem. Grok 4 Heavy to wersja z wieloma agentami. Systemy wieloagentowe to nie żarty!
Grok 4 jest używany do przewidywania mistrzów World Series w tym roku. To są interesujące zadania, na których modele rozumowania muszą być testowane. Na rzeczywistych wydarzeniach.
Wizualizacja zderzenia dwóch czarnych. Grok 4 korzysta z wszelkiego rodzaju odniesień, takich jak artykuły, czytanie plików PDF, powody dotyczące szczegółów symulacji i tego, jakich danych użyć.
Przykład przedstawia podsumowanie osi czasu/zmian i ogłoszeń o wynikach w HLE. To całkiem fajne!
Wydajność multimodalna Wydajność Grok 4 Heavy jest wyższa niż Grok 4, ale wymaga dalszej poprawy. Zdaniem zespołu jest to jedna ze słabości.
Wyniki w testach porównawczych rozumowania. Doskonały wynik na AIME25! Skoki są szalone w porównaniu z ostatnim najlepszym modelem w tych zadaniach.
Gdzie można testować modele. Dostępny na poziomie SuperGrok Heavy. $30/m dla Super Groka 300 $/m dla SuperGrok Heavy.
Aktualizacje głosowe również w cenie! Grok sprawia wrażenie bardziej żwawego i został zaprojektowany tak, aby był bardziej naturalny. - 2x szybszy - 5 głosów - 10x dziennie sekund użytkownika
ARC-AGI (Łuk-AGI) Grok 4 na ARC-AGI v2 (podzbiór prywatny) Przełamuje barierę 10% (15,9%). 2x drugie miejsce, którym jest model Claude Opus 4.
Grok 4 na ławce vendingowej Grok 4 zajmuje miejsce #1. Podwój wartość netto Claude Opus 4.
Modele Grok 4 są dostępne za pośrednictwem API xAI. Okno kontekstowe 256K. Wyszukiwanie danych w czasie rzeczywistym.
Grok 4 dla graczy! Zrozumienie wideo to obszar, który zespół poprawia, więc będzie coraz lepiej.
Co dalej? Nacisk zostanie położony na inteligencję i szybkość. Duży nacisk kładziony jest również na modelowanie kodowania. Pojawiają się również bardziej zdolni agenci multimodalni. Na horyzoncie pojawiają się również modele generowania wideo.
@elonmusk i zespół @xai naprawdę gotowali z Grok 4. Wszystko to jest bardzo ekscytujące, aby zobaczyć, jak skupiamy się na sztucznej inteligencji w rzeczywistości, poszukiwaniu prawdy i odblokowywaniu agentów multimodalnych.
Zacząłem eksperymentować z Grokiem 4 i już znalazłem kilka ciekawych rzeczy na jego temat. Przygotowuję szczegółowe porównanie z innymi modelami rozumowania. Wkrótce poprowadzę warsztaty na temat Grok 4 dla członków naszej akademii:
2,19M