LRM Token Economy: raportti LLM:ien päättelytehokkuudesta (joukosta ongelmia, jotka useimmat niistä voivat ratkaista lähes 1,0 tarkkuudella). Paljon mielenkiintoisia havaintoja, mutta ensimmäiset asiat ensin: V3.1 on Sonnet 4:n tasolla. Se on paljon vähemmän mutiseva kuin 0528.
2,67K