Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Sự thật thú vị: Việc RLing các mô hình trọng lượng mở kích thước 8b (như qwen 3) trực tiếp trên tập kiểm tra cho các tiêu chuẩn agentic (như TerminalBench) không hiệu quả. Chúng chỉ không thể đoán đúng câu trả lời trong một ngân sách mẫu hợp lý. Tôi không thể chờ đợi để thấy mô hình 8b đầu tiên đạt được một điểm số không tầm thường trên các tiêu chuẩn này!
Hàng đầu
Thứ hạng
Yêu thích