DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Evolução do aprendizado de poucos tiros para LLMs de raciocínio moderno usando @NethermindEth AuditAgent como exemplo. Abaixo você pode ver um gráfico interessante, ou melhor, uma comparação do número de vulnerabilidades identificadas corretamente por nosso produto em comparação com LLMs prontos, como @OpenAI GPT-5, @AnthropicAI Claude Opus 4.1, @Google Gemini 2.5 Pro ou @xai Grok-4. É claro que a parte óbvia dessa comparação, que já mostrei muitas vezes antes e não há nada de novo nela, é que um agente especializado quase sempre superará uma solução de uso geral. Essa situação é explicada facilmente pelo fato de que todas as soluções de uso geral fazem parte de nossa solução especializada, embora a contribuição muito maior para o resultado venha do gerenciamento adequado do contexto ou do que @karpathy chamado recentemente de "Engenharia de Contexto". Além disso, o uso de ferramentas corretas e sua seleção - um modelo de uso geral sempre terá problemas porque existem bilhões de ferramentas e aprender a usá-las todas é uma grande habilidade separada, enquanto ensinamos isso explicitamente ao nosso modelo especializado. Depois, há o uso de bases de conhecimento corretas e algoritmos de pesquisa adequados para eles, e assim por diante. Então, de uma forma ou de outra, fazemos todo o possível, usamos todas as ferramentas possíveis para vencer essas soluções de uso geral. Mas a nuance interessante para a qual eu queria chamar a atenção é que, se você olhar para a foto que postei há um ano ou mais, as principais soluções prontas eram os modelos OpenAI ou Anthropic com um rótulo "Few-Shot Learning", enquanto agora todos os principais são Vanilla. E essa mudança vem ocorrendo gradativamente com o surgimento do raciocínio como tal nos modelos e com a melhoria de sua qualidade. A conclusão que pode ser tirada é que exemplos de soluções corretas prontas que o modelo recebe de nós como aprendizado no contexto, quando literalmente os mostramos no prompt, param de ajudar a resolver a tarefa, ou mais precisamente, sem eles o modelo que pode raciocinar resolve o problema ainda melhor. Ou seja, limitamos um pouco seus recursos, mostrando vários exemplos que selecionamos. Além disso, um aspecto interessante é que os modelos com acesso à internet e seleção automática dessa ferramenta também começam a superar tudo, o que significa que o modelo pode ir para a própria internet e formular o contexto certo para si mesmo. Sim, é claro que existe o risco de o modelo encontrar a resposta correta, mas naturalmente trabalhamos especificamente com isso, fazemos listas negras de sites e assim por diante, então tentamos não obter esse vazamento nos dados (o benchmarking adequado é fundamental em geral). Mas a tendência é interessante - os modelos estão se tornando mais inteligentes e assumindo cada vez mais componentes da solução, não exigindo que os desenvolvedores façam explicitamente certas configurações no contexto. Qual é a sua experiência com isso?

573

Melhores

Classificação

Favoritos

Em alta on-chain

Em alta no X

Principais fundos da atualidade

Mais notável