Các bài đánh giá là cần thiết nhưng không đủ Cả Sonnet 4.5 và GLM 4.6 đều công bố kết quả thử nghiệm A/B với các chuyên gia trong các danh mục khác nhau cho các mô hình mới của họ