LRM Token Economy: um relatório sobre a eficiência do raciocínio em LLMs (em um conjunto de problemas que a maioria deles pode resolver com quase 1,0 de precisão). Muitas descobertas interessantes, mas as primeiras coisas primeiro: A V3.1 está no mesmo nível do Soneto 4. É muito menos resmungão do que 0528.
2,67K