LRM 代幣經濟:關於 LLMs 中推理效率的報告(在一組大多數可以以接近 1.0 準確率解決的問題上)。有很多有趣的發現,但首先: V3.1 與 Sonnet 4 不相上下。它比 0528 更少喃喃自語。
2.53K