Wyobraź sobie, gdyby wytrenowali V4 z czymkolwiek, na przykład z normalnym MLA lub GQA, i po prostu czekali na wagi, aż wymyślą lepszą rzadką uwagę, aby przekształcić to post-hoc.