1/El preentrenamiento está chocando contra un muro de datos; escalar solo datos web en bruto conduce a rendimientos decrecientes. Hoy @datologyai comparte BeyondWeb, nuestro enfoque de datos sintéticos y todas las lecciones aprendidas al escalarlo a billones de tokens🧑🏼‍🍳 - Los LLM de 3B superan a los modelos de 8B🚀 - Frontera de Pareto para el rendimiento
154,49K