Curiosità: RLing la maggior parte dei modelli open weight da 8b (come qwen 3) direttamente sul set di test per benchmark agentici (come TerminalBench) non funziona. Semplicemente non riescono a indovinare la risposta giusta all'interno di un budget di campionamento ragionevole. Non vedo l'ora di vedere il primo modello da 8b ottenere un punteggio non banale su questi benchmark!