評估是必要的,但不夠充分 Sonnet 4.5 和 GLM 4.6 都發佈了針對其新模型的不同類別專家的 A/B 測試結果