现在听到一些鸟儿的窃窃私语,内部评估的 gpt5 比 grok 4 Heavy 有点高。 然而,评估只告诉模型的一面,好奇地想知道我们是否得到了任何重大的代理或其他改进。
277.24K