跳转至主要内容
行情
扫链
追踪
信号
牛人榜
兑换
资产
邀请计划
更多
产品
DeFi
市场
洞察中心
Eco Hub
安全中心
开发者中心
DEX API
探索 DEX API
DEX API 文档
API Key 管理
区块链浏览器
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
Giveaway
完成指定任务,领取空投好礼
交易赛
交易热门代币,冲榜赢大奖
奖励中心
领取奖励和空投
预警
语言
货币
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
使用教程
学院
帮助中心
发现功能使用指南
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
-7.83%
USELESS
+1.89%
IKUN
-12.08%
gib
-6.78%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-3.06%
ALON
-1.18%
LAUNCHCOIN
-2.59%
GOONC
-0.5%
KLED
+5.68%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
+0.14%
Boopa
-2.06%
PORK
+0.3%
主页
elvis
使用 AI 代理进行构建 @dair_ai • 上一篇: Meta AI、Galactica、LLM、Elastic、PaperswithCode、博士 • 我分享了如何使用 LLM 和 AI 代理⬇️进行构建的见解
查看原文
elvis
10月3日 04:32
如何为AI代理应用有效的上下文工程? 如果你是今天构建AI代理的AI开发者,请阅读此内容。 上下文是王道!它必须被工程化,而不仅仅是被提示。 在阅读了Anthropic的精彩新上下文工程指南后,我写下了一些笔记: 上下文工程与提示工程 - 提示工程 = 编写和组织指令 - 上下文工程 = 策划和维护提示、工具、历史记录和外部数据 - 上下文工程是迭代的,上下文是定期策划的 为什么上下文工程很重要? - 有限的注意预算 - 如果上下文变得过大,会发生上下文衰退;上下文工程有助于解决这个问题 - 目标:策划和维护最少的高信号令牌 有效上下文的构成 - 系统提示:清晰,适当的高度(不太具体也不太模糊) - 工具:保持工具最小化,使用描述性参数,追求令牌效率 - 少量示例:提供多样化的、规范的期望行为示例 - 消息历史:积极修剪 上下文检索策略 - 预检索与及时检索;正在向代理搜索转变 - 使用轻量级引用(文件路径、存储查询)在运行时动态加载上下文 - 通过探索启用相关上下文的增量发现 - 混合搜索策略:预加载 + 动态检索 长时间任务的上下文工程 - 压缩:在子任务完成时总结并重置上下文 - 结构化笔记:使用持久的外部记忆(日志、待办事项) - 子代理:协调者进行协调/计划,子代理在自己的上下文窗口中执行任务,然后进行总结 我相信这些是构建可扩展、可靠的AI代理上下文管道的基础。但这还有很多内容。我相信随着时间的推移,会出现更多有效的策略。
48.26K
293
elvis
10月3日 00:06
如何更有效地训练小型推理模型? 这是许多AI开发者面临的问题。一般来说,强化学习微调往往会停滞不前,尤其是对于1–2B模型。 我认为DeepSearch在这里提供了一个非常清晰的方法。它将蒙特卡罗树搜索(MCTS)的理念在推理阶段引入训练循环。这一转变解锁了更好的探索和更高效的学习。 以下是我从论文中整理的笔记: 这个循环涉及四个关键思想: 训练期间搜索:在测试时仅进行搜索的情况下,MCTS在强化学习训练期间运行。一个局部UCT选择器对兄弟节点进行排名,而一个全局前沿评分器根据父节点的值、熵和深度选择有前景的叶子。 从胜利和自信的错误中学习:如果没有找到正确的解决方案,模型仍然通过监督自信的错误路径(最低熵的错误)进行学习。正确路径在更新期间保持非负,这有助于逐步信用分配。 通过树状GRPO稳定强化学习:他们通过节点级q值、仅均值归一化和软剪切策略来优化PPO风格的目标。这避免了奖励爆炸,同时保持梯度的信息性。 保持高效:为了减少浪费的计算,DeepSearch过滤出一个硬性问题子集,一旦解决方案得到验证就进行缓存,并在答案已知时跳过完整搜索。 所有这些改进都带来了强劲的结果。 DeepSearch-1.5B在AIME/AMC基准测试中达到了62.95%,超越了顶级Nemotron基线,同时仅使用了约330个GPU小时。相比之下,正常的强化学习训练即使使用1800多个GPU小时也会停滞在更低的水平。 论文: 我认为这篇论文提供了一个实用的配方,可以突破小型推理语言模型的停滞: • 将搜索移入训练,而不仅仅是推理 • 监督正确和错误的路径 • 使用全局优先级进行更智能的探索 • 缓存和过滤以保持高效
26.88K
351
elvis
10月2日 01:21
代理框架的竞争仍在继续。 微软刚刚推出了 Microsoft Agent Framework。 使用它来构建、编排和部署 AI 代理,支持 .NET 和 Python。 还支持基于图的多代理工作流编排。
5.19K
17
热门
排行
收藏