Gemma 3 comprend les images, le texte et la vidéo - tout en même temps. Dans cette analyse approfondie, découvrez comment le modèle intègre plusieurs sources et effectue une gamme de tâches allant de la réponse à des questions sur des documents à la description détaillée de scènes visuelles. Explorez pourquoi la multimodalité est importante.