Multimodalität

Definition

Ein multimodales KI-Modell kann verschiedene Eingabetypen verarbeiten und kombinieren: Text, Bilder, Audio, Video und Code. Im Gegensatz zu reinen Sprachmodellen (die nur Text verstehen) können multimodale Modelle zum Beispiel ein Foto analysieren und darüber sprechen, ein Diagramm erklären oder gesprochene Sprache transkribieren und zusammenfassen. GPT-4, Gemini und Claude sind multimodale Modelle. Multimodalität erweitert die Einsatzmöglichkeiten enorm — von der Dokumentenanalyse (PDFs mit Bildern) über Qualitätskontrolle (Fotos prüfen) bis zur Meeting-Analyse (Audio + Slides).

Definition

Verwandte Begriffe