Evalueringer er nødvendige, men ikke tilstrekkelige Både Sonnet 4.5 og GLM 4.6 publiserte A/B-testresultater med eksperter i forskjellige kategorier for sine nye modeller