"Pourquoi diable A@B est-il si spécial ?"
"La transformation linéaire est fondamentale en ce sens que c'est la seule fonction qui préserve la linéarité. Qu'est-ce que le matmul ? Le matmul est simplement la composition de deux transformations linéaires."
Mince, article très intéressant. Après une réduction rapide des pertes, nous observons une décélération et suivons la "loi d'échelle" : c'est parce qu'à ces étapes, les gradients commencent à se contredire.
Les mises à jour "luttent pour la capacité modale" d'une certaine manière, et plus le modèle est grand, moins il y a de luttes. Et c'est quantifiable.
Je me souviens qu'il y a 5 ans, lire des listes d'acceptation de conférences comme NeurIPS était une véritable activité intellectuellement enrichissante.
Maintenant, c'est 70 % de déchets d'IA qui me font mal aux yeux et la quantité est misérable.