DApp Store | Centrum Web3 pro události a hry

Populární témata

Sází se na vybudování systému kontinuálního vzdělávání. Co to znamená? Aktualizace kurzoru je pracovním příkladem. Přicházejí nová data, systém ví, jak filtrovat ty nejcennější vzorky. Poté využívá RL/jiné algoritmy k nasazení kontrolního bodu natrénovaného pomocí uvedených dat.

Každá komponenta musí být nejprve pečlivě prostudována, aby se vytvořil meta-algoritmus, který může takový systém provozovat. Během tréninkového běhu může na základě prvních příznaků vyhodnotit, zda v běhu pokračovat nebo jej zastavit. Za tímto účelem se do takového systému vkládají poznatky ze stovek běhů.

Tento obor práce zahajuje tento proces uvažování problémů s ověřitelnými odměnami. Protože se jedná o "nejstabilnější" nastavení pro vytvoření jednoduchého kanálu pro učení. Dalšími hranicemi by bylo LLM-as-judge a dlouhodobé a zpožděné nastavení odměn.

1,03K

Top

Hodnocení

Oblíbené