J'ai entendu dire que l'apprentissage par renforcement ne fonctionne qu'avec des récompenses vérifiables ? 😛 Félicitations !!
Alexander Wei
Alexander Wei19 juil. 2025
1/N Je suis ravi de partager que notre dernier raisonnement expérimental @OpenAI LLM a relevé un grand défi de longue date dans le domaine de l’IA : une performance de niveau médaille d’or lors de la compétition de mathématiques la plus prestigieuse au monde, l’Olympiade internationale de mathématiques (IMO).
31,92K