Multimodalität
Fähigkeit eines KI-Modells, mehrere Datentypen gleichzeitig zu verarbeiten — z.B. Text, Bilder, Audio und Video.
Definition
Ein multimodales KI-Modell kann verschiedene Eingabetypen verarbeiten und kombinieren: Text, Bilder, Audio, Video und Code. Im Gegensatz zu reinen Sprachmodellen (die nur Text verstehen) können multimodale Modelle zum Beispiel ein Foto analysieren und darüber sprechen, ein Diagramm erklären oder gesprochene Sprache transkribieren und zusammenfassen. GPT-4, Gemini und Claude sind multimodale Modelle. Multimodalität erweitert die Einsatzmöglichkeiten enorm — von der Dokumentenanalyse (PDFs mit Bildern) über Qualitätskontrolle (Fotos prüfen) bis zur Meeting-Analyse (Audio + Slides).
Verwandte Begriffe
KI-Wissen vertiefen?
KI-Überblick liefert täglich eingeordnete KI-Trends, Lernpfade und Deep Dives — 14 Tage kostenlos.
Kostenlos starten