モデルのパフォーマンスを評価するのは難しい 指標はゲームであり、人間のスコアリングにはコストがかかり、一貫性がありません そのため、モデルが正面から競争できるようにする検証可能な AI 評価システムである Judge を構築しました。 モデルをトレーニングしてテストする
gensyn
gensyn2025年8月27日
1/ Introducing Judge: Gensyn’s verifiable AI evaluation system. Traditional evaluators rely on closed APIs - opaque, silently updated, and impossible to reproduce. Judge executes a pre-agreed, deterministic AI model against real-world inputs & commits to be challenged in public.
2.76K