Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Muitas pessoas gostam de comparar diferentes classes de modelos, como "raciocínio" ou "não raciocínio", quando na realidade agora todos eles são treinados com uma boa quantidade das mesmas técnicas de aprendizado por reforço (e outras coisas).
A visão correta é ver cada lançamento de modelo em um espectro de esforço de raciocínio. Muitos dizem que o Claude é um modelo não raciocinador, no entanto, eles foram um dos primeiros a ter tokens especiais e uma UX para "pensar profundamente, aguarde" (bem antes do seu modo de pensamento estendido). O mesmo pode ser verdade para o DeepSeek v3.1, que foi lançado, mas ainda não é fácil de usar. Não temos ideia de quantos tokens por resposta são usados nas versões de chat desses modelos por padrão.
APIs com contagens exatas de tokens são a única fonte de verdade e elas deveriam ser comunicadas com muito mais frequência.
Então, dentro dos modelos de raciocínio, há uma enorme variação no número de tokens usados. O preço dos modelos deve ser a consideração final do esforço, uma mistura do total de parâmetros ativos e do número de tokens usados. Ouvindo Dylan Patel no podcast da a16z, parece que uma das grandes vitórias do GPT-5 no modo de pensamento que eu adoro (semelhante ao o3) foi obter resultados ligeiramente melhores com quase 50% menos tokens. Eu senti isso um pouco, é apenas mais focado na tarefa do que o o3.
Outro ponto é que a segunda geração de R1, R1-0528 melhorou as pontuações usando muito mais raciocínio. O Qwen tem sido semelhante. Isso nem sempre é super valioso para o usuário.
Em um nível técnico, resolvemos isso relatando o número de tokens usados por modelo nos resultados de avaliação (especialmente em relação aos pares). O problema é que os lançamentos de IA agora são bastante mainstream e é um detalhe técnico sutil a ser comunicado.
Do lado da pesquisa, por exemplo, você pode aumentar significativamente suas pontuações de avaliação avaliando seu modelo de raciocínio em um contexto mais longo do que seus pares.
O esforço de raciocínio em tokens, e às vezes no prompt do sistema, é agora uma variável complexa, mas não um simples sim/não em todos esses lançamentos.
Abaixo está uma captura de tela de um post discutindo isso antes do o1 ser lançado (12 de setembro do ano passado) e uma captura de tela de um usuário do reddit que descobriu o comportamento de pensamento do Claude.
Guardando este desabafo para referência futura porque preciso repetir isso o tempo todo.


25,27K
Top
Classificação
Favoritos