URGENTE: xAI anuncia Grok 4 "Pode raciocinar em um nível sobre-humano!" Aqui está tudo o que você precisa saber:
Elon afirma que o Grok 4 é mais inteligente do que quase todos os alunos de pós-graduação em todas as disciplinas simultaneamente. 100x mais treinamento do que Grok 2. 10x mais computação em RL do que qualquer um dos modelos existentes.
Desempenho no último exame da humanidade Elon: "Grok 4 é nível de pós-graduação em tudo!"
Escalonamento HLE - Treinamento Mais computação, maior inteligência. (sem ferramentas)
Com a chamada de ferramenta nativa, o Grok 4 aumenta significativamente o desempenho. Olhe para essas curvas! É importante dar à IA as ferramentas certas. A escala é clara. Louco!
Sinais confiáveis são fundamentais para fazer o RL funcionar. Ainda há o desafio dos dados. Elon: "O teste de raciocínio final é a IA operando na realidade."
Dimensionamento da computação em tempo de teste Mais de 50% do subconjunto somente de texto dos problemas HLE foram resolvidos! As curvas estão ficando cada vez mais ridículas.
Grok 4 é a versão de agente único. Grok 4 Heavy é a versão multiagente. Sistemas multiagentes não são brincadeira!
O Grok 4 está sendo usado para prever os campeões da World Series para este ano. Essas são as tarefas interessantes nas quais os modelos de raciocínio precisam ser testados. Em eventos reais do mundo real.
Uma visualização de dois buracos negros colidindo. O Grok 4 usa todos os tipos de referências, como artigos, leituras de PDFs, motivos sobre os detalhes da simulação e quais dados usar.
O exemplo mostra um resumo da linha do tempo/alterações e anúncios de pontuação no HLE. Isso é muito legal!
Desempenho multimodal O desempenho do Grok 4 Heavy é superior ao do Grok 4, mas precisa ser melhorado ainda mais. É um dos pontos fracos, de acordo com a equipe.
Desempenho em benchmarks de Raciocínio. Pontuação perfeita no AIME25! Os saltos são loucos em comparação com o último melhor modelo nessas tarefas.
Onde testar os modelos. Disponível como nível SuperGrok Heavy. $ 30 / m para Super Grok $ 300 / m para SuperGrok Heavy.
Atualizações de voz incluídas também! O Grok parece mais rápido e foi projetado para ser mais natural. - 2x mais rápido - 5 vozes - 10x segundos diários do usuário
ARC-AGI Grok 4 no ARC-AGI v2 (subconjunto privado) Quebra a barreira dos 10% (15,9%). 2x o segundo lugar, que é o modelo Claude Opus 4.
Grok 4 na bancada de venda automática Grok 4 fica com o lugar #1. O dobro do patrimônio líquido de Claude Opus 4.
Os modelos Grok 4 estão disponíveis por meio da API xAI. Janela de contexto de 256K. Pesquisa de dados em tempo real.
Grok 4 para jogos! A compreensão do vídeo é uma área que a equipe está melhorando, então vai melhorar.
O que vem a seguir? Inteligente e rápido será o foco. Os modelos de codificação também são um grande foco. Agentes multimodais mais capazes também estão chegando. Modelos de geração de vídeo também estão no horizonte.
@elonmusk e a equipe @xai realmente cozinhamos com Grok 4. Tudo muito emocionante ver o foco na IA para a realidade, a busca da verdade e o desbloqueio de agentes multimodais a seguir.
Comecei a experimentar o Grok 4 e já encontrei algumas coisas interessantes sobre ele. Estou preparando uma comparação detalhada com outros modelos de raciocínio. Em breve, estarei organizando um workshop sobre o Grok 4 para os membros da nossa academia:
2,19M