Gemma 3 versteht Bilder, Texte und Videos – alles auf einmal. In diesem tiefen Einblick erfahren Sie, wie das Modell mehrere Quellen integriert und eine Reihe von Aufgaben ausführt, von der Beantwortung von Fragen zu Dokumenten bis hin zur detaillierten Beschreibung visueller Szenen. Entdecken Sie, warum Multimodalität wichtig ist.