BREAKING: xAI annuncia Grok 4 "Può ragionare a un livello sovrumano!" Ecco tutto quello che c'è da sapere:
Elon afferma che Grok 4 è più intelligente di quasi tutti gli studenti laureati in tutte le discipline contemporaneamente. 100 volte più allenamento rispetto a Grok 2. 10 volte più calcolo su RL rispetto a qualsiasi altro modello disponibile.
Esibizione all'ultimo esame dell'umanità Elon: "Grok 4 è di livello post-laurea in tutto!"
Scaling HLE - Formazione Più elaborazione, maggiore intelligenza. (senza attrezzi)
Con la chiamata di strumenti nativi, Grok 4 aumenta significativamente le prestazioni. Guarda quelle curve! È importante dare all'IA gli strumenti giusti. La scalabilità è chiara. Pazzesco!
I segnali affidabili sono fondamentali per far funzionare il RL. C'è ancora la sfida dei dati. Elon: "Il test di ragionamento definitivo è l'IA che opera nella realtà."
Ridimensionamento del calcolo in fase di test Più del 50% del sottoinsieme di solo testo dei problemi HLE è stato risolto! Le curve diventano sempre più ridicole.
Grok 4 è la versione a singolo agente. Grok 4 Heavy è la versione a più agenti. I sistemi multi-agente non sono uno scherzo!
Grok 4 viene utilizzato per prevedere i campioni delle World Series di quest'anno. Questi sono i compiti interessanti su cui i modelli di ragionamento devono essere testati. Su eventi reali.
Una visualizzazione di due buchi neri che si scontrano. Grok 4 utilizza tutti i tipi di riferimenti come documenti, legge PDF, ragiona sui dettagli della simulazione e quali dati utilizzare.
L'esempio mostra un riepilogo della sequenza temporale/delle modifiche e degli annunci dei punteggi nell'HLE. È davvero fantastico!
Prestazioni multimodali Le prestazioni del Grok 4 Heavy sono superiori a quelle del Grok 4, ma devono essere ulteriormente migliorate. È uno dei punti deboli, secondo il team.
Performance sui benchmark di ragionamento. Punteggio perfetto su AIME25! I salti sono pazzeschi rispetto all'ultimo miglior modello su questi compiti.
Dove testare i modelli. Disponibile come livello SuperGrok Heavy. $ 30 / m per Super Grok $ 300 / m per SuperGrok Heavy.
Sono inclusi anche gli aggiornamenti vocali! Grok è più scattante ed è progettato per essere più naturale. - 2 volte più veloce - 5 voci - 10 secondi utente giornalieri
ARC-AGI Grok 4 su ARC-AGI v2 (sottoinsieme privato) Rompe la barriera del 10% (15,9%). 2 volte il secondo posto, che è il modello Claude Opus 4.
Grok 4 su banco distributore automatico Grok 4 ottiene il posto #1. Raddoppia il patrimonio netto di Claude Opus 4.
I modelli Grok 4 sono disponibili tramite l'API xAI. Finestra di contesto di 256K. Ricerca di dati in tempo reale.
Grok 4 per il gioco! La comprensione dei video è un'area che il team sta migliorando, quindi migliorerà.
Qual è il prossimo passo? Intelligente e veloce sarà l'obiettivo. Anche i modelli di codifica sono un grande obiettivo. Sono in arrivo anche agenti multimodali più capaci. Anche i modelli di generazione video sono all'orizzonte.
@elonmusk e il team di @xai hanno davvero cucinato con Grok 4. Tutto molto eccitante vedere l'attenzione sull'intelligenza artificiale per la realtà, la ricerca della verità e lo sblocco di agenti multimodali.
Ho iniziato a sperimentare con Grok 4 e ho già trovato alcune cose interessanti a riguardo. Sto preparando un confronto dettagliato con altri modelli di ragionamento. Presto ospiterò un workshop su Grok 4 per i membri della nostra accademia:
2,19M