3 beste fremgangsmåter for å skrive AI-evalueringer: 1. Balanser hastighet og strenghet Start med et dusin testtilfeller og gjenta derfra. Ikke bygg 100-tallet når du fortsatt gjør store endringer. Identifiser og fiks de største feilmodusene, og utvid deretter dekningen. 2. Besatt av evalueringskriterier og manuelle etiketter Dine evalueringskriterier og gylne datasett er grunnlaget for alt annet. Det er ingen vei utenom å gjøre dette manuelle arbeidet i regneark - besatt av å gjøre dine menneskelige etiketter gode. 3. Ikke skaler LLM-dommer for tidlig Sikt på ~80 % justering mellom LLM-dommeren og menneskelige etiketter før du skalerer. Revider resultatene regelmessig - ikke anta at det alltid er riktig. I morgen deler jeg en nybegynnerveiledning om AI-evalueringer som går gjennom et trinn-for-trinn-eksempel som alle kan følge. 📌 Registrer deg for å få det i innboksen din: (P.S. Slik forestiller jeg meg hvordan en LLM-dommer ser ut)