Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

elvis
Membangun dengan agen AI @dair_ai • Prev: Meta AI, Galactica LLM, Elastic, PaperswithCode, PhD • Saya berbagi wawasan tentang cara membangun dengan LLM & AI Agents ⬇️
Bagaimana Anda menerapkan rekayasa konteks yang efektif untuk agen AI?
Baca ini jika Anda seorang pengembang AI yang membangun agen AI hari ini.
Konteks adalah raja! Dan itu harus direkayasa, bukan hanya diminta.
Saya menulis beberapa catatan setelah membaca panduan rekayasa konteks baru yang mengagumkan dari Anthropic:
Rekayasa Konteks vs. Rekayasa Prompt
- Prompt Engineering = menulis dan mengatur instruksi
- Rekayasa Konteks = mengkurasi dan memelihara petunjuk, alat, riwayat,
dan data eksternal
- Rekayasa Konteks bersifat berulang, dan konteks dikuratori secara teratur
Mengapa Rekayasa Konteks Penting?
- Anggaran perhatian terbatas
- Pembusukan konteks terjadi jika konteks menjadi terlalu besar; Rekayasa konteks membantu
- Tujuan: kurasi dan pertahankan token sinyal tinggi minimal
Anatomi Konteks Efektif
- Perintah sistem: ketinggian yang jelas dan tepat (tidak terlalu spesifik atau terlalu kabur)
- Alat: jaga agar alat tetap minimal, gunakan parameter deskriptif, dan bidik
efisiensi token
- Contoh Sedikit-Tembakan: memberikan beragam contoh kanonik dari perilaku yang diinginkan
- Riwayat pesan: pangkas secara agresif
Strategi Pengambilan Konteks
- Pra-pengambilan vs just-in-time; Ada pergeseran ke arah pencarian agen
- Gunakan ref ringan (jalur file, kueri tersimpan) untuk memuat secara dinamis
Konteks saat runtime
- Aktifkan penemuan konteks yang relevan secara bertahap melalui eksplorasi
- Strategi pencarian hibrida: pramuat + ambil secara dinamis
Rekayasa Konteks untuk Tugas Jangka Panjang
- Pemadatan: meringkas & mengatur ulang konteks saat subtugas selesai
- Pencatatan terstruktur: gunakan memori eksternal persisten (log, tugas)
- Sub-agen: koordinat/rencana orkestrator, dan sub-agen melakukan tugas dengan jendela konteksnya sendiri yang kemudian dirangkum
Saya percaya ini adalah fondasi untuk membangun alur konteks yang dapat diskalakan dan andal untuk agen AI. Tapi ada lebih banyak lagi untuk ini. Saya yakin strategi yang lebih efektif akan muncul seiring berjalannya waktu.

48,24K
Bagaimana Anda melatih model penalaran kecil dengan lebih efektif?
Ini adalah masalah yang dihadapi banyak pengembang AI. Penyetelan halus RL, secara umum, cenderung mendatar, terutama untuk model 1–2B.
Saya pikir DeepSearch menawarkan pendekatan yang sangat bersih di sini. Dibutuhkan ide Monte Carlo Tree Search (MCTS) pada kesimpulan dan memindahkannya ke dalam lingkaran pelatihan. Pergeseran itu membuka eksplorasi yang lebih baik dan pembelajaran yang lebih efisien.
Berikut adalah catatan saya dari koran tersebut:
Loop melibatkan empat ide kunci:
Mencari Selama Pelatihan: Alih-alih hanya melakukan pencarian pada waktu pengujian, MCTS dijalankan selama pelatihan RL. Pemilih UCT lokal memberi peringkat saudara kandung, sementara pencetak gol perbatasan global memetik daun yang menjanjikan di seluruh pohon berdasarkan nilai induk, entropi, dan kedalaman.
Belajar dari Kemenangan dan Kesalahan Percaya Diri: Jika solusi yang benar tidak ditemukan, model masih belajar dengan mengawasi jalan yang salah yang percaya diri (kesalahan entropi terendah). Jalur yang benar tetap tidak negatif selama pembaruan, yang membantu penetapan kredit tingkat langkah.
Menstabilkan RL dengan Tree-GRPO: Mereka menyempurnakan tujuan gaya PPO dengan nilai q tingkat node, normalisasi rata-rata saja, dan strategi kliping lunak. Ini menghindari ledakan hadiah sambil menjaga gradien tetap informatif.
Tetap Efisien: Untuk mengurangi komputasi yang terbuang, DeepSearch memfilter ke subset masalah yang sulit, menyimpan solusi dalam cache setelah diverifikasi, dan melewatkan pencarian penuh saat jawabannya sudah diketahui.
Semua peningkatan ini menghasilkan hasil yang kuat.
DeepSearch-1.5B mencapai 62.95% pada tolok ukur AIME/AMC, mengalahkan baseline Nemotron teratas saat hanya menggunakan ~330 jam GPU. Sebagai perbandingan, pelatihan RL normal lebih rendah bahkan dengan 1.800+ jam GPU.
Kertas:
Saya pikir makalah ini menawarkan resep praktis untuk menerobos dataran tinggi dalam LM penalaran kecil:
• Pindahkan pencarian ke pelatihan, bukan hanya inferensi
• Mengawasi jalan yang benar dan salah
• Gunakan prioritas global untuk mengeksplorasi lebih cerdas
• Cache dan filter untuk menjaga efisiensi tetap tinggi

26,87K
Teratas
Peringkat
Favorit