通過舉辦一場比賽來測試 @Havelock_AI 分數的穩健性,Claude 僅被提供兩篇文本的語法和詞彙標記(無內容),並被要求猜測哪一篇更口語化。我們將看看得分較高的文本是否真的擁有更高的 ELO。
大規模運行前的第一次測試批次
107