Stel je voor dat ze V4 hadden getraind met wat dan ook, zoals met normale MLA of GQA, en gewoon op de gewichten hadden gezeten totdat ze een betere sparse attention hadden gevonden om het achteraf om te zetten.