Evaluarea performanței modelului este dificilă Valorile sunt jucate, scorul uman este costisitor și inconsecvent De aceea am construit Judge - un sistem de evaluare AI verificabil care permite modelelor să concureze direct. Antrenează-ți modelul și testează-l