Protože teď všichni mluví o RL Environments a GRPO, ale nikdo neví, jak to funguje, napadlo nás, že by bylo skvělé vytvořit vysvětlující video + kód, který můžete spustit:
Toto je příklad použití GRPO k trénování Qwen 2.5 pro přehrávání 2048 (kód ve vlákně): 🧵
Opravdu nevidím smysl vkládání do obrázků tweetů a vkládání tweetů s obrázky v nich, chamtivost nebo hromadění tohoto webu tímto webem je docela hloupé, každý ví, že embedy pocházejí z Twitteru vole chill
Zjistil jsem, že kurzor je stále zpožděnější, zejména mé ssh terminály, přestože nikdo jiný, koho znám, nemá zpoždění na našem clusteru. Nejsem si jistý, jaké je řešení..
Jen pro vaši informaci, přešel jsem z Tavily na Firecrawl nástroje pro vyhledávání/scrapování pro LLM, protože Firecrawl umí lepší analýzu pdf (a možná i další analýzu) - pokud to někoho zajímá.
Stále plánuji testovat exa nebo exo, ať už se tomu říká cokoli, někdy porovnat