很多人喜歡將不同類別的模型進行比較,比如“推理”或“非推理”,但實際上現在它們都是使用相同的強化學習技術(以及其他東西)進行訓練的。 正確的看法是將每個模型的發布視為推理努力的一個光譜。許多人說Claude是一個非推理模型,但他們是最早擁有特殊標記和“深思熟慮,稍等”的用戶體驗的模型之一(在他們的擴展思考模式之前)。對於已經發布但尚不易用的DeepSeek v3.1也可能是如此。我們不知道這些模型的聊天版本默認使用了多少個標記。 具有確切標記計數的API是唯一的真實來源,應該更頻繁地進行溝通。 然後,在推理模型中,使用的標記數量差異巨大。模型的價格應該是努力的最終考慮因素,結合總的活躍參數和使用的標記數量。在a16z播客中聽到Dylan Patel時,似乎GPT-5在我喜歡的思考模式(類似於o3)中的一個重大勝利是以幾乎減少50%的標記獲得稍微更好的結果。我感覺到這一點,它在任務上比o3更專注。 另一個要點是R1的第二代,R1-0528通過使用更多的推理來提高分數。Qwen也類似。這對用戶來說並不總是超級有價值。 在技術層面上,我們通過在評估結果中報告每個模型使用的標記數量來解決這個問題(尤其是相對於同類模型)。問題是AI發布現在相當主流,而這是一個微妙的技術細節需要溝通。 在研究方面,例如,通過在比同行更長的上下文中評估推理模型,可以有意義地提高評估分數。 標記中的推理努力,有時在系統提示中,現在是一個複雜的變量,而不是所有這些發布中的簡單是/否。 下面是一個截圖,來自於在o1發布之前(去年9月12日)討論此事的帖子,以及一個reddit用戶發現Claude思考行為的截圖。 保存這個長篇大論以備將來參考,因為我需要不斷重複這一切。
25.35K