热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
.@trailofbits 的 Buttercup 团队现在在 AIxCC 舞台上谈论我们的竞争策略。这里是我们的核心团队(8 名核心成员 + 大约 3 名雇佣兵):




我们的策略指导原则。简而言之,使用最适合工作的工具。不要指望大型语言模型在我们知道它们不擅长的事情上表现得神奇。

原始的Buttercup设计要复杂得多。它经过简化以符合规则,并考虑到我们团队的资源限制。


我们在半决赛中表现相当不错,取得了许多首杀,但我们的Java漏洞查找器坏了,我们仍然不知道为什么!


半决赛验证了我们整体的方法,但需要调整以适应决赛规模的巨大增加。我们扔掉了原型,从头开始为决赛做准备。


亨里克在协调器上工作:如何、什么以及何时提交到竞争API。我们决定始终要求提供PoV,以最大化我们对提交内容的信心。

Run 在我们的漏洞发现引擎上进行了工作。我们使用了标准的 oss-fuzz 模糊测试工具。我们使用了一个共享的语料库,其中 LLMs 帮助模糊测试工具获得覆盖率。


罗纳德在我们的漏洞发现引擎上工作。我们使用了标准的oss-fuzz模糊测试工具。我们使用了一个共享语料库,其中LLM帮助模糊测试工具获得覆盖率。
罗纳德在我们的漏洞发现引擎上工作。我们使用了标准的oss-fuzz模糊测试工具。我们使用了一个共享语料库,其中LLM帮助模糊测试工具获得覆盖率。


该补丁程序是一个多代理系统,包含6000行代码,使用LangChain/LangGraph,配备非推理的GPT-4.1。安全代理识别根本原因,工程师代理找到测试指令,然后QA代理提供补丁并进行验证。如果失败,反思代理会调整策略。



在展览轮次中,我们在第一轮得分最高,在第二轮遭遇重创,在第三轮反弹。我们在第一轮资源利用效率高,仅使用了 $1k 的 $30k LLM 预算。第二轮我们出现了一个小错误,导致一切崩溃。

在评分回合中,我们在有限的预算(可用预算的一半)下发现了很多漏洞,准确率很高,并且在所有任务中得分良好。我们还发现了至少一个其他CRS没有发现的漏洞,显示我们开辟了新领域。

我们是如何得分如此之高的?我们的准确率达到了90%,在所有任务中得分,并为我们所有的错误制作了高质量的补丁。
我们花了上个月制作一个可以在你的笔记本电脑上运行的简化版 buttercup。我们打算用一部分奖金来维护它。现在它是开源的!

4K
热门
排行
收藏