Apples Siri ist nur einer von vielen Sprachassistenten. Foto: dpa

Spracherkennung ist aus dem Alltag kaum noch wegzudenken. Und die Programme erkennen immer besser, was wir sagen – und bald auch, was wir sagen wollen.

Stuttgart - In den achtziger Jahren begannen James und Janet Baker an der Carnegie Mellon University in Pittsburgh mit der Entwicklung der ersten Software zur Spracherkennung am PC. Dragon Dictate kam 1990 für anfangs happige 9000 Dollar auf den Markt, und das, obwohl es nur 30 bis 40 Wörter pro Minute erkennen konnte (ein Mensch redet viermal so schnell). Aber offenbar entsprach die Software einem dringenden Nutzerbedürfnis, das aus Dragon Systems ein Unternehmen mit mehreren Hundert Mitarbeitern machte. 1997 konnte die Software bereits fließend Gesprochenes erkennen und kostete 160 Dollar.

Tiefes Lernen mit Neuronalen Netzen

In der Spracherkennung überließ man das Lernen nun Künstlichen Neuronalen Netzen, die beim Deep Learning in Schichten übereinander angeordnet werden. Steigende Rechenleistung, wachsende Trainingsdatenbestände und mächtige neue Player wie Google, Apple und Amazon verliehen dem Deep Learning die nötige Schubkraft. 2009 gelang es einer Forschungsgruppe um Geoffrey Hinton an der Universität Toronto, von ihrer trainierten Software Übersetzungen anfertigen zu lassen, die genauer waren als die sämtlicher Vorgänger, welche auf regelbasierten Systemen beruhten.

Das Ergebnis ließ die großen Namen der Smartphonebranche aufhorchen. Heute baut nicht nur das Spracherkennungsmodul von Apples digitaler Assistentin Siri auf Deep Learning auf. Als Google die Spracherkennung für sein Android-Betriebssystem damit ausstattete, sank die Fehlerquote um 25 Prozent. „Dafür hätte man früher zehn Jahre Entwicklungszeit veranschlagt“, so Hinton. „Das war wie zehn Durchbrüche auf einmal.“

Rasant wachsender Markt

Einer Analyse der Marktforscher von Markets and Markets zufolge sollen die Ausgaben für maschinelles Lernen von acht Milliarden Euro in diesem Jahr auf bis zu 45 Milliarden im Jahr 2020 steigen. Wie technologische Flaschengeister erfüllen digitale Assistenten von Amazons Alexa bis zu Microsofts Cortana immer besser immer mehr Aufgaben. Sie sind ein wesentlicher Baustein bei der künftigen Vermarktung von Künstlicher Intelligenz. Apple-Nutzer in den USA können bereits ihren Volkswagen veranlassen, auf Siri zu hören, und sowohl Amazon als auch Google haben ihre Assistenten für die Nutzung im Fahrzeug adaptiert. Allerdings möchten Autohersteller das Füllhorn an Daten, das moderne Autos produzieren, gern für sich behalten und knausern beim Zugang zum Bordnetz. BMW etwa will in seinen Fahrzeugen einen eigenen Sprachassistenten einbauen – die technische Grundlage dazu liefert der Weltmarktführer für Spracherkennungssoftware: die Firma Nuance, vormals Dragon Systems.

Lesen Sie hier: Wie Alexa im Selbstversuch abschneidet.

Sprachsteuerung gilt vielen als der Punkt, an dem sich Mensch und Maschine künftig bevorzugt berühren werden. Auch die Gefahr, dass alle kreuz und quer durcheinanderreden, lässt sich mit raffinierter Technik vermeiden. Ein am MIT Media Lab entwickeltes Spracherkennungssystem namens „AlterEgo“ erfasst Eingaben, ohne dass sie laut ausgesprochen werden müssen. Ein neuartiges Headset, das ohne Mikrofon auskommt, setzt dabei auf Sensoren, die Signale an die Gesichtsmuskeln registrieren. Solche Reize sendet das Gehirn nicht nur, wenn der Mund bewegt wird, sondern schon dann, wenn man im Stillen einen Text liest oder einen inneren Monolog hält. Die Forscher fanden heraus, dass diese Muskelreize mithilfe von Sensoren registriert werden können und das System mit hoher Genauigkeit die beabsichtigten Wörter erkennt. Sagen Sie jetzt nichts – ich weiß, was Sie denken.

Hat Ihnen der Artikel gefallen? Jetzt teilen: