LRM Token Economy: en rapport om resonemangseffektivitet i LLM (om en uppsättning problem som de flesta av dem kan lösa med nära 1.0 noggrannhet). Massor av intressanta fynd, men först och främst: V3.1 är i nivå med Sonnet 4. Det är mycket mindre av ett mumlande än 0528.
2,53K