Gemma 3 能夠同時理解圖像、文本和視頻。在這次深入探討中,了解該模型如何整合多個來源,並執行從回答有關文檔的問題到詳細描述視覺場景的一系列任務。探索為什麼多模態性如此重要。