LRM 代币经济:关于 LLMs 中推理效率的报告(在一组大多数可以以接近 1.0 准确率解决的问题上)。有很多有趣的发现,但首先: V3.1 与 Sonnet 4 不相上下。它比 0528 更少喃喃自语。
2.53K