Las evaluaciones son necesarias pero no suficientes Tanto Sonnet 4.5 como GLM 4.6 publicaron resultados de pruebas A/B con expertos en diferentes categorías para sus nuevos modelos