Êtes-vous prêt pour un pré-entraînement à l'échelle du web avec RL ? 🚀 🔥 Nouvel article : RLP : Pré-entraînement par apprentissage par renforcement Nous renversons la recette habituelle pour le raisonnement des LLM : au lieu de réserver RL pour le post-entraînement, nous intégrons l'exploration dans le pré-entraînement. Idée principale : traiter la chaîne de pensée comme une action. La récompenser par le gain d'information qu'elle fournit pour le tout prochain token : Cela donne une récompense dense sans vérificateur sur du texte ordinaire sans vérificateurs de tâches, sans étiquettes, sans filtrage. Pourquoi cela est-il important ? * 🧠 Les modèles réfléchissent avant de prédire pendant le pré-entraînement, pas seulement après l'alignement. * 📈 Crédit par position à chaque token = signal stable à pleine échelle web. * 🔁 Pas de filtres proxy ou d'heuristiques de "token facile". S'entraîne sur l'ensemble du flux. Résultats : Sur le banc d'essai math+science à 8 (AIME’25, MATH‑500, GSM8K, AMC’23, Minerva Math, MMLU, MMLU‑Pro, GPQA) : • Qwen3-1.7B-Base : RLP améliore la moyenne globale de 24 % ! • Nemotron-Nano-12B-v2-Base : RLP améliore la moyenne globale de 43 % !...