實際上,這是一個相當聰明且高數據的幻覺基準,~與我對相對能力的直覺相匹配
OpenRouter
OpenRouter8月15日 00:29
經過一週,GPT-5 在我們專有模型的工具調用準確率排行榜上名列第一🥇 第二名是 Claude 4.1 Opus,準確率為 99.5% 詳情 👇
23.99K