跳轉至主要內容
行情
掃鏈
追蹤
信號
牛人榜
兌換
資產
邀請計劃
更多
產品
DeFi
市場
洞察中心
Eco Hub
安全中心
開發者中心
DEX API
探索 DEX API
DEX API 文檔
API Key 管理
區塊鏈瀏覽器
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
Giveaway
完成指定任務,領取空投好禮
交易賽
交易熱門代幣,衝榜贏大獎
獎勵中心
領取獎勵和空投
預警
語言
貨幣
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
使用教程
學院
幫助中心
發現功能使用指南
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
-7.83%
USELESS
+1.89%
IKUN
-12.08%
gib
-6.78%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
-3.06%
ALON
-1.18%
LAUNCHCOIN
-2.59%
GOONC
-0.5%
KLED
+5.68%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
+0.14%
Boopa
-2.06%
PORK
+0.3%
主頁
elvis
使用 AI 代理進行構建 @dair_ai • 上一篇: Meta AI、Galactica、LLM、Elastic、PaperswithCode、博士 • 我分享瞭如何使用 LLM 和 AI 代理⬇️進行構建的見解
查看原文
elvis
10月3日 04:32
如何為 AI 代理應用有效的上下文工程? 如果你是今天正在構建 AI 代理的 AI 開發者,請閱讀這篇文章。 上下文是王道!它必須被工程化,而不僅僅是被提示。 在閱讀了 Anthropic 的精彩新上下文工程指南後,我寫下了一些筆記: 上下文工程與提示工程 - 提示工程 = 編寫和組織指令 - 上下文工程 = 策劃和維護提示、工具、歷史和外部數據 - 上下文工程是迭代的,並且上下文會定期策劃 為什麼上下文工程很重要? - 有限的注意預算 - 如果上下文變得過大,會發生上下文衰退;上下文工程有助於解決這個問題 - 目標:策劃和維護最少的高信號標記 有效上下文的解剖 - 系統提示:清晰,正確的高度(不過於具體或過於模糊) - 工具:保持工具最小化,使用描述性參數,並追求標記效率 - 少量示例:提供多樣的、典範的期望行為示例 - 訊息歷史:積極修剪 上下文檢索策略 - 預檢索與即時檢索;有向代理搜索的轉變 - 使用輕量級引用(文件路徑、存儲查詢)在運行時動態加載上下文 - 通過探索啟用相關上下文的增量發現 - 混合搜索策略:預加載 + 動態檢索 長期任務的上下文工程 - 壓縮:在子任務完成時總結並重置上下文 - 結構化筆記:使用持久的外部記憶(日誌、待辦事項) - 子代理:協調者協調/計劃,子代理執行任務,並擁有自己的上下文窗口,然後進行總結 我相信這些是為 AI 代理構建可擴展、可靠的上下文管道的基礎。但這還有很多更多的內容。我相信隨著時間的推移,會出現更多有效的策略。
48.25K
293
elvis
10月3日 00:06
如何更有效地訓練小型推理模型? 這是許多 AI 開發者面臨的問題。強化學習微調通常會遇到瓶頸,特別是對於 1–2B 的模型。 我認為 DeepSearch 在這方面提供了一個非常清晰的方法。它將蒙特卡羅樹搜索(MCTS)的概念從推理階段移入訓練循環中。這一轉變解鎖了更好的探索和更高效的學習。 以下是我從論文中整理的筆記: 這個循環涉及四個關鍵概念: 訓練期間的搜索:在測試時不僅僅進行搜索,MCTS 在強化學習訓練期間運行。一個局部的 UCT 選擇器對兄弟節點進行排名,而一個全局的邊界評分器根據父節點的價值、熵和深度選擇有前景的葉子。 從勝利和自信的錯誤中學習:如果沒有找到正確的解決方案,模型仍然可以通過監督自信的錯誤路徑(最低熵的錯誤)來學習。正確的路徑在更新期間保持非負,這有助於逐步的信用分配。 用 Tree-GRPO 穩定強化學習:他們用節點級的 q 值、僅均值的正規化和柔性裁剪策略來改進 PPO 風格的目標。這避免了獎勵爆炸,同時保持梯度的信息性。 保持高效:為了減少浪費的計算,DeepSearch 過濾到一個硬性問題子集,驗證後緩存解決方案,並在已知答案的情況下跳過完整搜索。 所有這些改進都導致了強勁的結果。 DeepSearch-1.5B 在 AIME/AMC 基準測試中達到 62.95%,超越了頂級的 Nemotron 基準,同時僅使用了約 330 GPU 小時。相比之下,正常的強化學習訓練即使使用 1,800+ GPU 小時也會達到較低的瓶頸。 論文: 我認為這篇論文提供了一個實用的配方,可以突破小型推理 LMs 的瓶頸: • 將搜索移入訓練,而不僅僅是推理 • 監督正確和錯誤的路徑 • 使用全局優先級進行更智能的探索 • 緩存和過濾以保持高效率
26.88K
351
elvis
10月2日 01:21
代理框架的戰鬥仍在繼續。 微軟剛剛推出了微軟代理框架。 使用它來構建、編排和部署 AI 代理,並支持 .NET 和 Python。 還支持基於圖形的多代理工作流程。
5.19K
17
熱門
排行
收藏