突發消息:xAI 宣布 Grok 4 「它能以超人級別進行推理!」 這裡是你需要知道的一切:
Elon聲稱Grok 4比幾乎所有學科的研究生都聰明。 比Grok 2多100倍的訓練。 在強化學習上比任何現有模型多10倍的計算能力。
人類最後考試的表現 埃隆:"Grok 4 在所有方面都是研究生水平!"
擴展 HLE - 訓練 更多計算,更高的智慧。 (無工具)
透過原生工具呼叫,Grok 4 顯著提高了性能。 看看那些曲線! 給 AI 正確的工具是很重要的。擴展性很明顯。瘋狂!
可靠的信號是讓強化學習運作的關鍵。 數據仍然是一個挑戰。 Elon: "最終的推理測試是AI在現實中運作。"
擴展測試時的計算 超過 50% 的僅文本子集 HLE 問題已經解決! 這些曲線變得越來越荒謬。
Grok 4 是單一代理版本。 Grok 4 Heavy 是多代理版本。 多代理系統可不是開玩笑的!
Grok 4 正在用來預測今年的世界大賽冠軍。 這些是推理模型需要進行測試的有趣任務,針對實際的現實事件。
兩個黑洞碰撞的可視化。 Grok 4 使用各種參考資料,如論文、閱讀 PDF、推理模擬的細節以及使用哪些數據。
這個例子顯示了HLE中的時間線/變更和分數公告的摘要。 這真是太酷了!
多模態性能 Grok 4 Heavy 的性能高於 Grok 4,但仍需進一步改善。根據團隊的說法,這是其中一個弱點。
在推理基準測試上的表現。 在 AIME25 上獲得滿分! 與這些任務上之前最佳模型相比,進步非常驚人。
在哪裡測試模型。 可用於 SuperGrok Heavy 等級。 Super Grok 每月 $30 SuperGrok Heavy 每月 $300。
語音更新也包含在內! Grok 感覺更靈敏,設計上更自然。 - 速度提升 2 倍 - 5 種聲音 - 每日用戶使用時間提升 10 倍
ARC-AGI Grok 4 在 ARC-AGI v2(私有子集)上 它突破了 10% 的障礙(15.9%)。 是第二名的兩倍,第二名是 Claude Opus 4 模型。
Grok 4 在自動販賣機上 Grok 4 獲得了第一名。 是 Claude Opus 4 淨資產的兩倍。
Grok 4 模型可通過 xAI API 獲得。 256K 上下文窗口。 實時數據搜索。
Grok 4 遊戲專用! 視頻理解是團隊正在改進的領域,因此會變得更好。
接下來會是什麼? 智慧和快速將成為重點。 編碼模型也是一個重要的焦點。 更強大的多模態代理也即將到來。 視頻生成模型也在視野之中。
@elonmusk 和 @xai 團隊在 Grok 4 上真的做得很棒。看到專注於現實的 AI、尋求真相以及解鎖多模態代理的發展,讓人感到非常興奮。
我開始實驗 Grok 4,已經發現了一些有趣的事情。 我正在準備與其他推理模型的詳細比較。 我將很快為我們的學院成員舉辦一個關於 Grok 4 的工作坊:
2.19M