速報:xAIがGrok 4を発表 「超人的なレベルで推論できる!」 ここでは、知っておくべきことをすべてご紹介します。
イーロンは、Grok 4 はすべての分野のほぼすべての大学院生よりも同時に賢いと主張しています。 Grok 2 の 100 倍のトレーニング。 RLでのコンピューティングは、どのモデルよりも10倍多い。
人類最後の試験でのパフォーマンス イーロン: 「Grok 4 はすべてにおいて大学院レベルです!」
HLE のスケーリング - トレーニング より多くのコンピューティング、より高いインテリジェンス。 (工具なし)
ネイティブのツールコールにより、Grok 4はパフォーマンスを大幅に向上させます。 その曲線を見てください! AIに適切なツールを提供することが重要です。スケーリングは明確です。クレージー!
信頼性の高いシグナルは、RLを機能させるための鍵です。 データの問題はまだあります。 イーロン: "究極の推論テストは、現実で動作するAIである。"
テスト時コンピューティングのスケーリング HLE問題のテキストのみのサブセットの50%以上が解かれます。 曲線はますますばかばかしくなっていきます。
Grok 4 はシングルエージェント バージョンです。 Grok 4 Heavyはマルチエージェントバージョンです。 マルチエージェントシステムは冗談ではありません!
Grok 4は、今年のワールドシリーズチャンピオンを予測するために使用されています。 これらは、推論モデルをテストする必要がある興味深いタスクです。実際の現実世界のイベントについて。
2つのブラックホールが衝突する様子を可視化します。 Grok 4 は、論文、PDF の読み取り、シミュレーションの詳細に関する理由、使用するデータなど、あらゆる種類の参考文献を使用します。
この例は、HLE のタイムライン/変更とスコアのお知らせの概要を示しています。 それはかなりクールです!
マルチモーダル性能 Grok 4 Heavyの性能はGrok 4よりも高いが、さらに改善する必要がある。チームによると、これは弱点の1つです。
推論ベンチマークでの性能 AIME25で満点! これらのタスクにおける最後の最良のモデルと比較して、飛躍はクレイジーです。
モデルをテストする場所。 SuperGrok Heavy層として利用可能。 Super Grokの場合は$ 30 /m SuperGrok Heavy の場合は 300 ドル/月。
音声アップデートも収録! Grok はよりキビキビした感触で、より自然になるように設計されています。 - 2倍速い - 5つの声 - 10倍の毎日のユーザー秒数
アークAGI ARC-AGI v2 の Grok 4 (プライベートサブセット) 10%の壁(15.9%)を破ります。 2位の2倍はクロードOpus 4モデルです。
自動販売機ベンチの Grok 4 Grok 4 が #1 の座を獲得しました。 Claude Opus 4の純資産の2倍。
Grok 4 モデルは、xAI API を介して利用できます。 256K コンテキスト ウィンドウ。 リアルタイムのデータ検索。
ゲーム用の Grok 4! ビデオの理解はチームが改善している領域であるため、さらに良くなるでしょう。
次は何ですか? スマートで高速が焦点となります。 コーディングモデルも大きな焦点です。 より有能なマルチモーダルエージェントも登場します。 動画生成モデルも目前に迫っています。
@elonmuskと@xaiチームはGrok 4で本当に料理をしました。次に、現実のための AI、真実の探求、マルチモーダル エージェントのロック解除に焦点を当てるのを見るのは非常にエキサイティングです。
私は Grok 4 を試し始めましたが、すでにいくつかの興味深い点を見つけました。 他の推論モデルとの詳細な比較を準備しています。 近々、アカデミーのメンバー向けに Grok 4 に関するワークショップを開催する予定です。
2.19M