1/ O pré-treinamento está enfrentando um limite de dados; escalar apenas dados brutos da web leva a retornos decrescentes. Hoje, @datologyai compartilha o BeyondWeb, nossa abordagem de dados sintéticos e todas as lições aprendidas ao escalá-lo para trilhões de tokens🧑🏼‍🍳 - Modelos LLM de 3B superam modelos de 8B🚀 - Fronteira de Pareto para desempenho
154,5K