Économie du Token LRM : un rapport sur l'efficacité du raisonnement dans les LLM (sur un ensemble de problèmes que la plupart d'entre eux peuvent résoudre avec une précision proche de 1.0). Beaucoup de résultats intéressants, mais d'abord les choses sérieuses : La V3.1 est au même niveau que Sonnet 4. C'est beaucoup moins un baratineur que le 0528.
2,54K