Economia do Token LRM: um relatório sobre a eficiência de raciocínio em LLMs (em um conjunto de problemas que a maioria deles pode resolver com precisão próxima a 1.0). Muitas descobertas interessantes, mas primeiro as coisas: A V3.1 está à altura da Sonnet 4. É muito menos confusa do que a 0528.
2,59K