Экономика токенов LRM: отчет о эффективности рассуждений в LLM (по набору задач, большинство из которых они могут решить с точностью близкой к 1.0). Много интересных находок, но сначала о главном: V3.1 на уровне Sonnet 4. Он гораздо менее неразборчив, чем 0528.
2,59K