Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
BREAKING: xAI annuncia Grok 4
"Può ragionare a un livello sovrumano!"
Ecco tutto quello che c'è da sapere:

Elon afferma che Grok 4 è più intelligente di quasi tutti gli studenti laureati in tutte le discipline contemporaneamente.
100 volte più allenamento rispetto a Grok 2.
10 volte più calcolo su RL rispetto a qualsiasi altro modello disponibile.

Esibizione all'ultimo esame dell'umanità
Elon: "Grok 4 è di livello post-laurea in tutto!"

Scaling HLE - Formazione
Più elaborazione, maggiore intelligenza.
(senza attrezzi)

Con la chiamata di strumenti nativi, Grok 4 aumenta significativamente le prestazioni.
Guarda quelle curve!
È importante dare all'IA gli strumenti giusti. La scalabilità è chiara. Pazzesco!

I segnali affidabili sono fondamentali per far funzionare il RL.
C'è ancora la sfida dei dati.
Elon: "Il test di ragionamento definitivo è l'IA che opera nella realtà."
Ridimensionamento del calcolo in fase di test
Più del 50% del sottoinsieme di solo testo dei problemi HLE è stato risolto!
Le curve diventano sempre più ridicole.

Grok 4 è la versione a singolo agente.
Grok 4 Heavy è la versione a più agenti.
I sistemi multi-agente non sono uno scherzo!

Grok 4 viene utilizzato per prevedere i campioni delle World Series di quest'anno.
Questi sono i compiti interessanti su cui i modelli di ragionamento devono essere testati. Su eventi reali.

Una visualizzazione di due buchi neri che si scontrano.
Grok 4 utilizza tutti i tipi di riferimenti come documenti, legge PDF, ragiona sui dettagli della simulazione e quali dati utilizzare.

L'esempio mostra un riepilogo della sequenza temporale/delle modifiche e degli annunci dei punteggi nell'HLE.
È davvero fantastico!

Prestazioni multimodali
Le prestazioni del Grok 4 Heavy sono superiori a quelle del Grok 4, ma devono essere ulteriormente migliorate. È uno dei punti deboli, secondo il team.

Performance sui benchmark di ragionamento.
Punteggio perfetto su AIME25!
I salti sono pazzeschi rispetto all'ultimo miglior modello su questi compiti.

Dove testare i modelli.
Disponibile come livello SuperGrok Heavy.
$ 30 / m per Super Grok
$ 300 / m per SuperGrok Heavy.

Sono inclusi anche gli aggiornamenti vocali!
Grok è più scattante ed è progettato per essere più naturale.
- 2 volte più veloce
- 5 voci
- 10 secondi utente giornalieri

ARC-AGI
Grok 4 su ARC-AGI v2 (sottoinsieme privato)
Rompe la barriera del 10% (15,9%).
2 volte il secondo posto, che è il modello Claude Opus 4.

Grok 4 su banco distributore automatico
Grok 4 ottiene il posto #1.
Raddoppia il patrimonio netto di Claude Opus 4.

I modelli Grok 4 sono disponibili tramite l'API xAI.
Finestra di contesto di 256K.
Ricerca di dati in tempo reale.

Grok 4 per il gioco!
La comprensione dei video è un'area che il team sta migliorando, quindi migliorerà.

Qual è il prossimo passo?
Intelligente e veloce sarà l'obiettivo.
Anche i modelli di codifica sono un grande obiettivo.
Sono in arrivo anche agenti multimodali più capaci.
Anche i modelli di generazione video sono all'orizzonte.

@elonmusk e il team di @xai hanno davvero cucinato con Grok 4. Tutto molto eccitante vedere l'attenzione sull'intelligenza artificiale per la realtà, la ricerca della verità e lo sblocco di agenti multimodali.
Ho iniziato a sperimentare con Grok 4 e ho già trovato alcune cose interessanti a riguardo.
Sto preparando un confronto dettagliato con altri modelli di ragionamento.
Presto ospiterò un workshop su Grok 4 per i membri della nostra accademia:

2,19M
Principali
Ranking
Preferiti