QUEBRANDO: xAI anuncia Grok 4 "Pode raciocinar a um nível sobre-humano!" Aqui está tudo o que você precisa saber:
Elon afirma que Grok 4 é mais inteligente do que quase todos os alunos de pós-graduação em todas as disciplinas simultaneamente. 100x mais treino do que o Grok 2. 10x mais computação em RL do que qualquer um dos modelos disponíveis.
Desempenho no Último Exame da Humanidade Elon: "Grok 4 é nível de pós-graduação em tudo!"
Scaling HLE - Formação Mais computação, maior inteligência. (sem ferramentas)
Com a chamada de ferramenta nativa, o Grok 4 aumenta significativamente o desempenho. Olhe para essas curvas! É importante dar as ferramentas certas à IA. A escalabilidade é clara. Louco!
Sinais fiáveis são fundamentais para fazer o RL funcionar. Ainda há o desafio dos dados. Elon: "O teste de raciocínio definitivo é a IA a operar na realidade."
Dimensionamento da computação em tempo de teste Mais de 50% do subconjunto somente texto dos problemas HLE estão resolvidos! As curvas vão ficando mais ridículas.
Grok 4 é a versão de agente único. Grok 4 Heavy é a versão de múltiplos agentes. Sistemas de múltiplos agentes não são brincadeira!
O Grok 4 está a ser utilizado para prever os campeões da World Series deste ano. Estas são as tarefas interessantes nas quais os modelos de raciocínio precisam ser testados. Em eventos reais.
Uma visualização de dois buracos negros em colisão. O Grok 4 usa todos os tipos de referências, como papéis, lê PDFs, razões sobre os detalhes da simulação e quais dados usar.
O exemplo mostra um resumo da linha do tempo/alterações e anúncios de pontuação no HLE. Isso é muito legal!
Desempenho multimodal O desempenho do Grok 4 Heavy é maior do que o do Grok 4, mas precisa ser melhorado ainda mais. É um dos pontos fracos, segundo a equipa.
Desempenho em benchmarks de Raciocínio. Pontuação perfeita no AIME25! Os saltos são loucos em comparação com o último melhor modelo nessas tarefas.
Onde testar os modelos. Disponível como nível SuperGrok Heavy. $30/m para Super Grok $300/m para SuperGrok Heavy.
Atualizações de voz incluídas, também! Grok parece mais ágil e foi projetado para ser mais natural. - 2x mais rápido - 5 vozes - 10x segundos diários do usuário
ARC-AGI Grok 4 em ARC-AGI v2 (subconjunto privado) Quebra a barreira dos 10% (15,9%). 2x o segundo lugar, que é o modelo Claude Opus 4.
Grok 4 no banco de venda automática Grok 4 fica com o #1 lugar. O dobro do património líquido de Claude Opus 4.
Os modelos Grok 4 estão disponíveis através da API xAI. Janela de contexto de 256K. Pesquisa de dados em tempo real.
Grok 4 para jogos! A compreensão do vídeo é uma área que a equipe está melhorando, então vai melhorar.
O que se segue? Inteligente e rápido será o foco. Os modelos de codificação também são um grande foco. Estão também a chegar agentes multimodais mais capazes. Modelos de geração de vídeo também estão no horizonte.
@elonmusk e a equipe @xai realmente cozinhamos com Grok 4. Tudo muito empolgante para ver o foco na IA para a realidade, a busca da verdade e o desbloqueio de agentes multimodais em seguida.
Comecei a experimentar o Grok 4 e já encontrei algumas coisas interessantes sobre ele. Estou preparando uma comparação detalhada com outros modelos de raciocínio. Em breve, organizarei um workshop sobre Grok 4 para os membros da nossa academia:
2,19M