Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
.@trailofbits' Команда Buttercup розповідає про нашу стратегію змагань зараз, на сцені AIxCC. Ось наша основна команда (8 основних людей + ~3 найманці):




Наші стратегії, якими ми керуємося. TLDR використовуйте найкращий інструмент для роботи. Не очікуйте, що LLM будуть чарівно хорошими в речах, про які ми знаємо, що це не так.

Оригінальний дизайн Лютика був значно складнішим. Він був урізаний, щоб відповідати правилам і враховувати ресурсні обмеження нашої команди.


Ми показали досить хороші результати в півфіналі, набравши багато перших ближніх, але наш баг-шукач Java зламався, і ми досі не знаємо чому!


Півфінали підтвердили наш загальний підхід, але він потребував коригування, щоб пристосуватися до значного збільшення масштабу фіналу. Ми викинули прототип і почали з нуля до фіналу.


Хенрік працював над оркестратором: як, що і коли подавати на конкурс API. Ми вирішили завжди вимагати PoV, щоб максимізувати нашу впевненість у поданнях.

Run працював над нашим механізмом виявлення вразливостей. Ми використовували стандартні фаззери oss-fuzz. Ми використовували спільний корпус, де LLM допомагали фузерам отримувати покриття.


Рональд працював над нашим механізмом виявлення вразливостей. Ми використовували стандартні фаззери oss-fuzz. Ми використовували спільний корпус, де LLM допомагали фузерам отримувати покриття.
Рональд працював над нашим механізмом виявлення вразливостей. Ми використовували стандартні фаззери oss-fuzz. Ми використовували спільний корпус, де LLM допомагали фузерам отримувати покриття.


Патчер являє собою мультиагентну систему, 6 тисяч рядків коду, LangChain/LangGraph, з необґрунтованим GPT-4.1. Агент безпеки виявляє кореневі причини, інженер-агент знаходить інструкцію тестування, потім QA-агент встановлює патч і перевіряє його. Якщо це не вдається, агент Reflection коригує стратегію.



У виставкових раундах ми забили першими в 1 раунді, сильно розбилися в 2 і відскочили в 3. Ми були ресурсоефективними в першому раунді, використавши лише 1 тисячу доларів із бюджету LLM у 30 тисяч доларів. У 2-му раунді у нас була незначна друкарська помилка, яка вивела все з ладу.

У раунді оцінювання ми знайшли багато багів з обмеженим бюджетом (половина від доступного), з високою точністю та хорошими оцінками за всіма завданнями. Ми також знайшли принаймні 1 помилку, якої не бачив ніхто інший CRS, що свідчить про те, що ми охопили нову територію.

Як ми так добре забили? Ми мали 90% точності, оцінювали всі завдання та робили високоякісні виправлення для всіх наших багів.
Ми витратили останній місяць на створення зменшеної версії жовтця, яка працює на вашому ноутбуці. Ми маємо намір підтримувати його за рахунок частини виграшу. Тепер це відкритий вихідний код!

3,99K
Найкращі
Рейтинг
Вибране