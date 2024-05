Schneller, freundlicher und musikalischer: OpenAI hat eine neue Version von ChatGPT vorgestellt. Die KI ist Sprachassistenten wie Alexa und Siri haushoch überlegen – verzweifelt aber am schwäbischen Dialekt.

ChatGPT lässt Sprachassistenten wie Alexa, Siri und Co. alt aussehen: OpenAI hat am Montag eine neue Version seines beliebten Chatbots veröffentlicht. Die Entwickler haben unter anderem die Reaktionszeit des Tools verkürzt, um raschere Antworten zu liefern. Bald soll ChatGPT-4o sogar über Scherze lachen, verschämt kichern und Echtzeitvideos der Handykamera analysieren.

Zahlende Abonnenten können ChatGPT-4o schon jetzt ausprobieren – auch wenn einige Funktionen wie Emotionserkennung und Kamera-Kopplung noch fehlen und erst in den kommenden Wochen auch für die Gratis-Variante des Tools freigeschaltet werden sollen. Doch schon jetzt ist das Upgrade spürbar. Der Nachfolger von ChatGPT-4 hebt sich unter anderem mit einer schnelleren Reaktionszeit ab. Auf Sprachbefehle reagiert ChatGPT-4o nun innerhalb von durchschnittlich 320 Millisekunden, was der Reaktionszeit von Menschen im Gespräch entspricht.

Laut den Entwicklern von OpenAI gelingt das höhere Tempo dadurch, dass nur noch ein einziges Modell die Befehle, die ins Handymikrofon gesprochen werden, mit Hilfe künstlicher Intelligenz (KI) in Text umwandelt. Bisher mussten KI-Modelle wie GPT-3.5 und GPT-4 zunächst miteinander verzahnt werden, um sich gegenseitig die Sprachfetzen für die Umwandlung zuzuwerfen. Nun übernimmt ChatGPT-4o sämtliche Aufgaben. Daher rührt auch „o“ im Namen, dass für omni (lateinisch: „alles“) steht.

KI erkennt Tonfall und Gesichtsausdrücke

Laut OpenAI soll das KI-Tool zudem viel aufmerksamer werden, da die Sprachsoftware im Gegensatz zu früheren Versionen nun auch Tonfall, mehrere Sprecher gleichzeitig und Hintergrundgeräusche herausfiltern kann. Die KI soll außerdem mit der Handykamera die Emotionen in den Gesichtern der Nutzerinnen und Nutzer lesen können.

Auch bei Übersetzungen ist ChatGPT-4o besser geworden. Mit der schnelleren Sprachanalyse kann die Software nun beinahe als Synchrondolmetscher eingesetzt werden, wenn die App auf dem Smartphone mitläuft und Dialoge in Echtzeit übersetzt. Mehr als 50 verschiedene Sprachen beherrscht das KI-Tool. Bei der Übersetzung ins Schwäbische hat die KI aber deutliche Schwächen.

Wir haben den neuen Chatbot ausprobiert und auf seine Dialektkenntnisse überprüft. Wir haben der KI diesen Satz aus unserer Videoreihe „Schwäbisch-Crashcurs für Neigschmeckte“ vorgelesen und die Aufgabe gestellt, den Text ins Hochdeutsche zu übersetzen:

„I bin zom Metzger ganga ond hob do a LKW mit ABS bstellt. Dann hob i zom gsait: Du, koschd mir mol mai LKW hebe? I würd da gern au a bissle Gselz draufdo, gell?“

Zunächst überrascht ChatGPT-4o mit der korrekten Übersetzung der Abkürzung LKW. Denn im Schwäbischen handelt es sich nicht um die Kurzform von Lastwagen, sondern um die Abkürzung für Leberkäsweckle. Das übersetzt die Software einwandfrei. Doch dann folgt schon der erste Dämpfer: ChatGPT kennt die Abkürzung für „a bissle Senf“ nicht und weiß auch auf Nachfrage mit „ABS“ nichts anzufangen.

Dann wird es richtig schlimm. Aus der Bitte, ob jemand mal das Brötchen halten könne, macht die Software den ziemlich unwirschen Befehl: „Du machst mir mal ein Leberkäsweckle!“ Mit der Idee, ein wenig Marmelade auf das Leberkäsbrötchen zu schmieren, kann ChatGPT schließlich gar nichts mehr anfangen und übersetzt den Satz missverständlich mit: „Ich würde auch gerne ein bisschen Gesellschaft haben, oder?“

Die Entwickler von OpenAI setzen große Stücke auf die neue Software, wollen die Erwartungen aber nicht zu weit hochschrauben. Noch sei die Software nicht ganz ausgereift, heißt es auf der Website des neuen Sprachtools. Bei allen Möglichkeiten und Beschränkungen „kratzen wir bisher nur an der Oberfläche“. Doch mit den neuen Funktionen könnte ChatGPT die Marktmacht als KI-Alltagstool noch weiter ausbauen. Die Vorschauvideos mit den KI-Robotern, die zusammen ein Duett singen und sich gegenseitig beschreiben, was die Smartphonekamera gerade filmt, sind vielversprechend – wenn auch ein wenig gruselig.

In den kommenden Wochen wird sich zeigen, ob die Konkurrenten im KI-Wettkampf mithalten können. Google hält an diesem Dienstag seine jährliche Entwicklerkonferenz ab, bei der es wohl auch um die hauseigene KI-Software Gemini gehen soll, die Sprache und Bilder genau wie ChatGPT verarbeitet. Apple lädt am 10. Juni zur Entwicklerkonferenz ins kalifornische Cupertino ein. Auch dort wird KI eine entscheidende Rolle spielen, die alltägliche Aufgaben auf iPhones, iPads und MacBooks erleichtern soll.