Maldita sea, un artículo muy interesante. Después de una rápida reducción de pérdidas, vemos una desaceleración y seguimos la "ley de escala": esto se debe a que en estos pasos, los gradientes comienzan a entrar en conflicto entre sí. Las actualizaciones están "luchando por la capacidad modal" en cierto sentido, y cuanto mayor es el modelo, menos lucha hay. y es cuantificable.