LRM トークン エコノミー: LLM の推論効率に関するレポート (ほとんどの LLM が 1.0 近くの精度で解決できる一連の問題について)。興味深い発見はたくさんありますが、まず最初に: V3.1 は Sonnet 4 と同等です。0528 よりもはるかにつぶやくほどではありません。
2.54K