Fakta Menyenangkan: RLing sebagian besar model bobot terbuka berukuran 8b (seperti qwen 3) langsung pada set pengujian untuk tolok ukur agen (seperti TerminalBench) tidak berfungsi. Mereka hanya tidak dapat menebak jawaban yang tepat dalam anggaran pengambilan sampel yang masuk akal. Saya tidak sabar untuk melihat model 8b pertama untuk mendapatkan skor yang tidak sepele pada tolok ukur ini!