DApp Store | Pusat Web3 untuk Event & Game

Topik trending

.@trailofbits' Tim Buttercup berbicara tentang strategi kompetisi kami sekarang, di panggung AIxCC. Inilah tim inti kami (8 orang inti + ~3 tentara bayaran):

Prinsip panduan strategi kami. TLDR menggunakan alat terbaik untuk pekerjaan itu. Jangan berharap LLM menjadi mahir secara ajaib dalam hal-hal yang kita tahu tidak.

Desain Buttercup asli secara substansial lebih canggih. Itu dipangkas untuk mematuhi aturan, dan memperhitungkan kendala sumber daya dari tim kami.

Kami melakukannya dengan baik di semifinal, mencetak banyak darah pertama, tetapi pencari bug Java kami rusak dan kami masih tidak tahu mengapa!

Semifinal memvalidasi pendekatan kami secara keseluruhan, tetapi perlu penyesuaian untuk mengakomodasi peningkatan besar-besaran dalam skala untuk final. Kami membuang prototipe dan memulai dari awal untuk final.

Henrik mengerjakan orkestrator: bagaimana, apa, dan kapan harus mengirimkan ke API kompetisi. Kami memutuskan untuk selalu mewajibkan PoV untuk memaksimalkan kepercayaan kami pada pengiriman.

Run bekerja pada mesin penemuan kerentanan kami. Kami menggunakan fuzzer oss-fuzz standar. Kami menggunakan korpus bersama di mana LLM membantu fuzzer dalam mendapatkan cakupan.

Ronald mengerjakan mesin penemuan kerentanan kami. Kami menggunakan fuzzer oss-fuzz standar. Kami menggunakan korpus bersama di mana LLM membantu fuzzer dalam mendapatkan cakupan.

Patcher adalah sistem multi-agen, 6k baris kode, LangChain/LangGraph, dengan GPT-4.1 non-penalaran. Agen keamanan mengidentifikasi akar penyebab, Agen Insinyur menemukan instruksi pengujian, lalu agen QA tambalan dan memvalidasinya. Jika gagal, agen Refleksi menyesuaikan strategi.

Di babak Eksibisi, kami mencetak gol pertama di ronde 1, jatuh keras di 2, dan bangkit kembali di babak 3. Kami hemat sumber daya di putaran 1, hanya menggunakan $1k dari anggaran LLM $30k. Putaran 2 kami mengalami kesalahan ketik kecil yang menghancurkan segalanya.

Dalam putaran yang dinilai, kami menemukan banyak bug dengan anggaran terbatas (setengah dari yang tersedia), dengan akurasi tinggi, dan mendapat skor yang baik di semua tugas. Kami juga menemukan setidaknya 1 bug yang tidak dilakukan oleh CRS lain, menunjukkan bahwa kami menutupi tanah baru.

Bagaimana kami mencetak skor dengan sangat baik? Kami memiliki akurasi 90%, mencetak skor di semua tugas, dan membuat tambalan berkualitas tinggi untuk semua bug kami.

Kami menghabiskan sebulan terakhir membuat versi buttercup yang diperkecil yang berjalan di laptop Anda. Kami bermaksud untuk mempertahankannya dengan sebagian kemenangan. Ini open source sekarang!

Teratas

Peringkat

Favorit

Trending onchain

Trending di X

Pendanaan teratas terbaru

Paling terkenal