OpenAI legt den Turbo ein und wird multimodal
Microsoft Germany hat am 9. März 2023 bei einer einstündigen hybriden Informationsveranstaltung namens „KI im Fokus – Digitaler Kickoff“ große Sprachmodelle als disruptive Kraft für Unternehmen und ihr Angebot Azure-OpenAI im Detail vorgestellt. Bei dieser Veranstaltung erwähnte Andreas Braun, CTO von Microsoft Germany und Lead Data & AI STU, das bevorstehende Release von GPT-4 beiläufig. Microsoft hat mit OpenAI an Multimodalität gearbeitet, wie auch schon beim Release von Kosmos-1 Anfang März bekannt wurde.
Laut Dr. Alexander Braun, dem CTO von Microsoft Germany, wird GPT-4 multimodale Modelle vorstellen, die noch ganz andere Möglichkeiten bieten werden. Hierunter fällt auch die Verarbeitung von Videos. Wenn OpenAI jetzt schon mit der öffentlich nutzbaren Video-KI um die Ecke kommt, wäre dies natürlich eine krasse Überraschung und würde zu noch mehr Tools für meinen KI-Newsletter führen.
Was kann man von GPT-4 erwarten?
Dr. Alexander Braun, CTO von Microsoft Germany, sagte im Video, dass GPT-4 nächste Woche vorgestellt wird und multimodale Modelle enthält, die noch ganz andere Möglichkeiten bieten werden – zum Beispiel Videos. Dies wäre eine krasse Überraschung und würde zu noch mehr Tools für Newsletter führen.
Was sind multimodale Modelle?
Multimodale Modelle sind in der KI-Industrie ein neuer Trend, der aufgrund seiner hohen Leistungsfähigkeit und Vielseitigkeit immer beliebter wird. Diese Modelle sind in der Lage, verschiedene Modalitäten zu verarbeiten, indem sie gleichzeitig visuelle, akustische und textuelle Daten aufnehmen und analysieren. Sie können beispielsweise Sprache in Text umwandeln, Bilder und Videos identifizieren und klassifizieren sowie Audio in Text umwandeln.
Ein großer Vorteil von multimodalen Modellen ist ihre Fähigkeit, menschliche Sprache und Gesten besser zu verstehen und zu interpretieren. Sie können mehrere Modalitäten auf einmal verarbeiten, um die Bedeutung einer Aussage besser zu erfassen. Ein Beispiel dafür ist die automatische Untertitelung von Videos, bei der ein multimodales Modell sowohl Sprache als auch Bildmaterial analysieren kann, um präzise Untertitel zu generieren.
Ein weiterer Vorteil von multimodalen Modellen ist ihre Fähigkeit, natürliche Interaktionen zwischen Mensch und Maschine zu ermöglichen. Wenn beispielsweise ein Benutzer einer KI einen komplexen Befehl in natürlicher Sprache gibt, kann das multimodale Modell sowohl den Text als auch das Sprachsignal analysieren und so einen besseren Kontext verstehen. Das Ergebnis ist eine genauere und effektivere Antwort.
Umgang mit KI wird immer wichtiger für Unternehmen
Marianne Janik, Geschäftsführerin von Microsoft Germany, sprach über die Disruption durch KI in den Unternehmen. Sie betonte das Wertschöpfungspotenzial Künstlicher Intelligenz und sprach von einer Zeitenwende. Es gehe nicht darum, Jobs zu ersetzen, sondern repetitive Aufgaben auf andere Weise als bisher zu erledigen. Janik empfahl Unternehmen, interne Kompetenzzentren zu bilden, die die Mitarbeiter im Umgang mit der KI schulen und Ideen für Projekte bündeln könnten.