Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Sází se na vybudování systému kontinuálního vzdělávání. Co to znamená? Aktualizace kurzoru je pracovním příkladem. Přicházejí nová data, systém ví, jak filtrovat ty nejcennější vzorky. Poté využívá RL/jiné algoritmy k nasazení kontrolního bodu natrénovaného pomocí uvedených dat.

23. 8. 2025
Představujeme lepší recept na sběr post-tréninkových dat při použití GRPO. Sběr vzorků od odborníků je drahý, rozpočty na anotace jsou omezené. Za které příklady se vlastně vyplatí zaplatit? Zjistili jsme, že zaměření na tvrdé vzorky vede ke zlepšení o 30-40 %.
1/7

Každá komponenta musí být nejprve pečlivě prostudována, aby se vytvořil meta-algoritmus, který může takový systém provozovat. Během tréninkového běhu může na základě prvních příznaků vyhodnotit, zda v běhu pokračovat nebo jej zastavit. Za tímto účelem se do takového systému vkládají poznatky ze stovek běhů.
Tento obor práce zahajuje tento proces uvažování problémů s ověřitelnými odměnami. Protože se jedná o "nejstabilnější" nastavení pro vytvoření jednoduchého kanálu pro učení. Dalšími hranicemi by bylo LLM-as-judge a dlouhodobé a zpožděné nastavení odměn.
1,03K
Top
Hodnocení
Oblíbené