ÚLTIMA HORA: xAI anuncia Grok 4 "¡Puede razonar a un nivel sobrehumano!" Aquí está todo lo que necesita saber:
Elon afirma que Grok 4 es más inteligente que casi todos los estudiantes de posgrado en todas las disciplinas simultáneamente. 100 veces más entrenamiento que Grok 2. 10 veces más computación en RL que en cualquiera de los modelos que existen.
Desempeño en el último examen de la humanidad Elon: "¡Grok 4 es de nivel de posgrado en todo!"
Escalado de HLE - Capacitación Más computación, mayor inteligencia. (sin herramientas)
Con la llamada de herramientas nativas, Grok 4 aumenta significativamente el rendimiento. ¡Mira esas curvas! Es importante darle a la IA las herramientas adecuadas. La escalabilidad es clara. ¡Una locura!
Las señales fiables son clave para hacer que el RL funcione. Todavía existe el desafío de los datos. Elon: "La prueba definitiva de razonamiento es la IA operando en la realidad."
Escalado del proceso en tiempo de prueba ¡Más del 50% del subconjunto de solo texto de los problemas de HLE están resueltos! Las curvas se vuelven cada vez más ridículas.
Grok 4 es la versión de un solo agente. Grok 4 Heavy es la versión de múltiples agentes. ¡Los sistemas de múltiples agentes no son una broma!
Grok 4 se está utilizando para predecir los campeones de la Serie Mundial de este año. Estas son las tareas interesantes en las que se deben probar los modelos de razonamiento. En eventos reales del mundo.
Una visualización de dos agujeros negros colisionando. Grok 4 utiliza todo tipo de referencias como documentos, lecturas en PDF, razones sobre los detalles de la simulación y qué datos usar.
En el ejemplo se muestra un resumen de la línea de tiempo/cambios y anuncios de puntuación en el HLE. ¡Eso es genial!
Rendimiento multimodal El rendimiento de Grok 4 Heavy es mayor que el de Grok 4, pero debe mejorarse aún más. Es una de las debilidades, según el equipo.
Rendimiento en los puntos de referencia de razonamiento. ¡Puntuación perfecta en AIME25! Los saltos son una locura en comparación con el último mejor modelo en estas tareas.
Dónde probar los modelos. Disponible como nivel SuperGrok Heavy. $30/m por Super Grok $ 300 / mes por SuperGrok Heavy.
¡También se incluyen actualizaciones de voz! Grok se siente más ágil y está diseñado para ser más natural. - 2 veces más rápido - 5 voces - 10 veces los segundos de usuario diarios
ARC-AGI Grok 4 en ARC-AGI v2 (subconjunto privado) Rompe la barrera del 10% (15,9%). 2 veces el segundo lugar, que es el modelo Claude Opus 4.
Grok 4 en el banco de venta Grok 4 obtiene el puesto #1. El doble del patrimonio neto de Claude Opus 4.
Los modelos Grok 4 están disponibles a través de la API de xAI. Ventana de contexto de 256K. Búsqueda de datos en tiempo real.
¡Grok 4 para juegos! La comprensión del video es un área que el equipo está mejorando, por lo que mejorará.
¿Qué sigue? Inteligente y rápido será el foco. Los modelos de codificación también son un gran enfoque. También están llegando agentes multimodales más capaces. Los modelos de generación de video también están en el horizonte.
@elonmusk y el equipo de @xai realmente cocinaron con Grok 4. Todo muy emocionante de ver el enfoque en la IA para la realidad, la búsqueda de la verdad y el desbloqueo de agentes multimodales a continuación.
Empecé a experimentar con Grok 4 y ya encontré algunas cosas interesantes al respecto. Estoy preparando una comparación detallada con otros modelos de razonamiento. Pronto organizaré un taller sobre Grok 4 para los miembros de nuestra academia:
2,19M