Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Êtes-vous prêt pour un pré-entraînement à l'échelle du web avec RL ? 🚀
🔥 Nouvel article : RLP : Pré-entraînement par apprentissage par renforcement
Nous renversons la recette habituelle pour le raisonnement des LLM : au lieu de réserver RL pour le post-entraînement, nous intégrons l'exploration dans le pré-entraînement.
Idée principale : traiter la chaîne de pensée comme une action.
La récompenser par le gain d'information qu'elle fournit pour le tout prochain token :
Cela donne une récompense dense sans vérificateur sur du texte ordinaire sans vérificateurs de tâches, sans étiquettes, sans filtrage.
Pourquoi cela est-il important ?
* 🧠 Les modèles réfléchissent avant de prédire pendant le pré-entraînement, pas seulement après l'alignement.
* 📈 Crédit par position à chaque token = signal stable à pleine échelle web.
* 🔁 Pas de filtres proxy ou d'heuristiques de "token facile". S'entraîne sur l'ensemble du flux.
Résultats :
Sur le banc d'essai math+science à 8 (AIME’25, MATH‑500, GSM8K, AMC’23, Minerva Math, MMLU, MMLU‑Pro, GPQA) :
• Qwen3-1.7B-Base :
RLP améliore la moyenne globale de 24 % !
• Nemotron-Nano-12B-v2-Base :
RLP améliore la moyenne globale de 43 % !...

Meilleurs
Classement
Favoris