DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Leuke Feit: RLing de meeste 8b grote open gewicht modellen (zoals qwen 3) direct op de testset voor agentische benchmarks (zoals TerminalBench) werkt niet. Ze kunnen gewoon het juiste antwoord niet raden binnen een redelijk samplingbudget. Ik kan niet wachten om het eerste 8b-model te zien dat een niet-triviaal resultaat behaalt op deze benchmarks!

Boven

Positie

Favorieten