Alors que le Kimi k2 de Moonshot AI est le principal modèle de non-raisonnement à poids ouverts dans l’indice d’intelligence d’analyse artificielle, il produit ~3x plus de jetons que les autres modèles de non-raisonnement, brouillant les frontières entre le raisonnement et le non-raisonnement Kimi k2 est le plus grand modèle de poids ouvert majeur à ce jour - 1T de paramètres totaux avec 32B actifs (cela nécessite un énorme 1 To de mémoire à FP8 natif pour contenir les poids). Nous avons k2 à 57 dans l’indice d’intelligence d’analyse artificielle, un score impressionnant qui le place au-dessus de modèles comme GPT-4.1 et DeepSeek V3, mais derrière les principaux modèles de raisonnement. Jusqu’à présent, il y avait une distinction claire entre les modèles de raisonnement et les modèles non raisonnants dans nos évaluations - définies non seulement par l’utilisation ou non de balises par le modèle <reasoning> , mais principalement par l’utilisation de jetons. Le nombre médian de jetons utilisés pour répondre à toutes les évaluations dans l’indice d’intelligence d’analyse artificielle est ~10 fois plus élevé pour les modèles de raisonnement que pour les modèles non raisonnés. @Kimi_Moonshot Kimi k2 utilise ~3 fois le nombre de jetons utilisé par le modèle médian de non-raisonnement. Son utilisation de jetons n’est que jusqu’à 30 % inférieure à celle de Claude 4 Sonnet et Opus lorsqu’ils sont exécutés en mode de réflexion étendu à budget maximum, et est presque le triple de l’utilisation de jetons de Claude 4 Sonnet et Opus avec le raisonnement désactivé. Nous recommandons donc que Kimi k2 soit comparé à Claude 4 Sonnet et Opus dans leurs modes de réflexion étendus à budget maximum, et non aux scores de non-raisonnement des modèles Claude 4. Kimi k2 est disponible sur l’API propriétaire de @Kimi_Moonshot ainsi que sur @FireworksAI_HQ, @togethercompute, @novita_labs et @parasail_io. Voir ci-dessous et sur l’analyse artificielle pour une analyse 👇 plus approfondie
60,69K