熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
突發消息:xAI 宣布 Grok 4
「它能以超人級別進行推理!」
這裡是你需要知道的一切:

Elon聲稱Grok 4比幾乎所有學科的研究生都聰明。
比Grok 2多100倍的訓練。
在強化學習上比任何現有模型多10倍的計算能力。

人類最後考試的表現
埃隆:"Grok 4 在所有方面都是研究生水平!"

擴展 HLE - 訓練
更多計算,更高的智慧。
(無工具)

透過原生工具呼叫,Grok 4 顯著提高了性能。
看看那些曲線!
給 AI 正確的工具是很重要的。擴展性很明顯。瘋狂!

可靠的信號是讓強化學習運作的關鍵。
數據仍然是一個挑戰。
Elon: "最終的推理測試是AI在現實中運作。"
擴展測試時的計算
超過 50% 的僅文本子集 HLE 問題已經解決!
這些曲線變得越來越荒謬。

Grok 4 是單一代理版本。
Grok 4 Heavy 是多代理版本。
多代理系統可不是開玩笑的!

Grok 4 正在用來預測今年的世界大賽冠軍。
這些是推理模型需要進行測試的有趣任務,針對實際的現實事件。

兩個黑洞碰撞的可視化。
Grok 4 使用各種參考資料,如論文、閱讀 PDF、推理模擬的細節以及使用哪些數據。

這個例子顯示了HLE中的時間線/變更和分數公告的摘要。
這真是太酷了!

多模態性能
Grok 4 Heavy 的性能高於 Grok 4,但仍需進一步改善。根據團隊的說法,這是其中一個弱點。

在推理基準測試上的表現。
在 AIME25 上獲得滿分!
與這些任務上之前最佳模型相比,進步非常驚人。

在哪裡測試模型。
可用於 SuperGrok Heavy 等級。
Super Grok 每月 $30
SuperGrok Heavy 每月 $300。

語音更新也包含在內!
Grok 感覺更靈敏,設計上更自然。
- 速度提升 2 倍
- 5 種聲音
- 每日用戶使用時間提升 10 倍

ARC-AGI
Grok 4 在 ARC-AGI v2(私有子集)上
它突破了 10% 的障礙(15.9%)。
是第二名的兩倍,第二名是 Claude Opus 4 模型。

Grok 4 在自動販賣機上
Grok 4 獲得了第一名。
是 Claude Opus 4 淨資產的兩倍。

Grok 4 模型可通過 xAI API 獲得。
256K 上下文窗口。
實時數據搜索。

Grok 4 遊戲專用!
視頻理解是團隊正在改進的領域,因此會變得更好。

接下來會是什麼?
智慧和快速將成為重點。
編碼模型也是一個重要的焦點。
更強大的多模態代理也即將到來。
視頻生成模型也在視野之中。

@elonmusk 和 @xai 團隊在 Grok 4 上真的做得很棒。看到專注於現實的 AI、尋求真相以及解鎖多模態代理的發展,讓人感到非常興奮。
我開始實驗 Grok 4,已經發現了一些有趣的事情。
我正在準備與其他推理模型的詳細比較。
我將很快為我們的學院成員舉辦一個關於 Grok 4 的工作坊:

2.19M
熱門
排行
收藏