DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Curiosità: RLing la maggior parte dei modelli open weight da 8b (come qwen 3) direttamente sul set di test per benchmark agentici (come TerminalBench) non funziona. Semplicemente non riescono a indovinare la risposta giusta all'interno di un budget di campionamento ragionevole. Non vedo l'ora di vedere il primo modello da 8b ottenere un punteggio non banale su questi benchmark!

Principali

Ranking

Preferiti