Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Evolutie van few-shot learning voor moderne redeneermodellen (LLM's) met @NethermindEth AuditAgent als voorbeeld.
Hieronder zie je een interessante grafiek, of beter gezegd, een vergelijking van het aantal correct geïdentificeerde kwetsbaarheden door ons product in vergelijking met kant-en-klare LLM's zoals @OpenAI GPT-5, @AnthropicAI Claude Opus 4.1, @Google Gemini 2.5 Pro, of @xai Grok-4.
Natuurlijk is het voor de hand liggende deel van deze vergelijking, dat ik al vele malen eerder heb laten zien en waar niets nieuws in zit, dat een gespecialiseerde agent bijna altijd beter presteert dan een oplossing voor algemeen gebruik. Deze situatie wordt eigenlijk vrij eenvoudig verklaard door het feit dat alle oplossingen voor algemeen gebruik deel uitmaken van onze gespecialiseerde oplossing, hoewel de veel grotere bijdrage aan het resultaat komt van goed contextbeheer of wat @karpathy onlangs "Context Engineering" noemde.
Naast dit alles is het gebruik van de juiste tools en hun selectie - een model voor algemeen gebruik zal altijd problemen hebben omdat er miljarden tools zijn en leren om ze allemaal te gebruiken een aparte grote vaardigheid is, terwijl wij ons gespecialiseerde model dit expliciet leren. Dan is er het gebruik van de juiste kennisbases en de juiste zoekalgoritmen daarvoor, enzovoort. Dus hoe dan ook, we doen alles wat mogelijk is, gebruiken alle mogelijke tools om deze oplossingen voor algemeen gebruik te overtreffen.
Maar de interessante nuance waar ik de aandacht op wilde vestigen, is dat als je kijkt naar de afbeelding die ik ongeveer een jaar geleden heb gepost, de beste kant-en-klare oplossingen de modellen van OpenAI of Anthropic waren met een "Few-Shot Learning" label, terwijl nu alle topmodellen Vanilla zijn. En deze verandering heeft geleidelijk plaatsgevonden met de opkomst van redeneren als zodanig in modellen en met de verbetering van de kwaliteit ervan. De conclusie die kan worden getrokken is dat kant-en-klare voorbeelden van correcte oplossingen die het model van ons ontvangt als in-context learning, wanneer we ze letterlijk in de prompt laten zien, niet langer helpen bij het oplossen van de taak, of beter gezegd, zonder hen lost het model dat kan redeneren het probleem zelfs beter op. Dat wil zeggen, we beperken in zekere zin zijn mogelijkheden door het enkele voorbeelden te tonen die we hebben geselecteerd.
Bovendien is een interessant aspect dat modellen met internettoegang en automatische selectie van deze tool ook beginnen te overtreffen, wat betekent dat het model zelf naar het internet kan gaan en de juiste context voor zichzelf kan formuleren. Ja, natuurlijk is er een risico dat het model het juiste antwoord vindt, maar natuurlijk werken we specifiek hiermee, we doen blacklisting van sites en zo verder, dus we proberen dergelijke lekken in de data te voorkomen (goede benchmarking is in het algemeen de sleutel). Maar de trend is interessant - modellen worden slimmer en nemen steeds meer componenten van de oplossing zelf op, zonder dat ontwikkelaars expliciet bepaalde instellingen in de context hoeven te maken.
Wat is jouw ervaring hiermee?

545
Boven
Positie
Favorieten