Beim autonomen Fahren gilt die Regel „Übung macht den Meister“. Diese Übung können sich Computer nun durch Simulation selbst beibringen. Foto: fotohansel / Adobe Stock

Superrechner werden schlauer, wenn sie sich gegenseitig trainieren. Dieses Prinzip soll auch das autonome Fahren verbessern.

Stuttgart - Als vor etwa eineinhalb Jahren ein Computer gegen den weltbesten Spieler im asiatischen Brettspiel Go gewonnen hat, war der Aufschrei groß: Werden die Maschinen jetzt intelligenter als Menschen? Insbesondere die Go-Gemeinde schien frustriert – hatten die besten Spieler doch über viele Jahre hinweg Erfahrungen gesammelt und geübt. Und plötzlich besiegte sie eine Software namens Alpha Go, die gerade mal ein paar Monate gelernt und trainiert hatte.

Jetzt vermeldet Deep Mind, das Unternehmen hinter Alpha Go und eine Google-Tochter, einen neuen Erfolg im Fachmagazin „Nature“: Alpha Go Zero, eine Weiterentwicklung, hat haushoch gegen die ursprüngliche Software gewonnen – und zwar in einem Turnier, das 100 zu null für die Zero-Variante von Alpha Go ausging. Die Macher sprechen von einer „super human performance“, einer übermenschlichen Leistung. Im Spiel Go wird vermutlich nie wieder ein Mensch eine Software aus dem Hause Deep Mind schlagen.

Wie konnte sich die Leistung so enorm verbessern? Eigentlich haben die Entwickler nur die logische Konsequenz aus ihrem Erfolg vom März 2016 gezogen. Damals hatten sie ihr System auf zweierlei Arten trainiert: Alpha Go hatte einerseits Millionen Spielzüge aus bisherigen Go-Partien genutzt, um zu lernen, wie das Spiel funktioniert – es hatte sich also erfolgreiche Strategien von den Menschen „abgeschaut“. Ein anderes Netz hatte auf dieser Grundlage unzählige Male gegen sich selbst gespielt und so ebenfalls gelernt, wie erfolgreiche Strategien aussehen. Und offenbar hatte es einige Spielzüge gefunden, die erfolgversprechender waren als alle, die Menschen bis dato entdeckt hatten.

Autonome Autos sollen besser fahren als Menschen

Doch die unkonventionelle Strategie führte für jeden sichtbar zum Erfolg: Wenn zwei Computer also durch reines Gegeneinanderspielen eine erfolgreichere Strategie entwickeln, als wenn sie sich das Spiel von Menschen abschauen, liegt der Schluss nahe, sie ausschließlich auf diese Weise trainieren zu lassen. Schließlich hatten die Forscher bewiesen, dass Menschen in jahrhundertelangem Spiel noch nicht die perfekte Strategie gefunden hatten.

Das haben die Entwickler von Deep Mind nun getan: Alpha Go Zero lernte allein, indem das System gegen sich selbst spielte, eine reine Computersimulation sozusagen mit einer einzigen Vorgabe: den Spielregeln. Dabei lernt das System auf Grundlage des Feedbacks, das es letztlich selbst erzeugt. „Das klingt, als ob man Wissen aus dem Nichts schöpfen kann“, sagt Klaus-Robert Müller, Professor für Maschinelles Lernen an der TU Berlin, „sozusagen ein Münchhausen-Trick der künstlichen Intelligenz.“ Doch ganz so metaphysisch ist das Ganze natürlich nicht: Das Wissen kommt nicht aus dem Nichts, sondern aus Computersimulationen.

Es gibt zumindest eine Anwendung, die deutlich näher ist am echten Leben und von solchen Fortschritten profitieren könnte: das autonome Fahren. Auch hier ist nicht ratsam, sich allein am Verhalten der Menschen zu orientieren. Schließlich sollen die autonomen Autos der Zukunft weniger Unfälle bauen, sie sollen es besser machen als die Menschen.

Zudem ist es ein Grundproblem der künstlichen Intelligenz, dass für die leistungsfähigen tiefen neuronalen Netze häufig zu wenig Trainingsdaten zur Verfügung stehen. Diese Vorgaben, was die künstliche Intelligenz leisten soll, werden in Form von Input- und Output-Daten verarbeitet. Ein System zur Bilderkennung beispielsweise bekommt eine große Anzahl von Bildern als Input-Daten und die zugehörigen Labels wie „Baum“ oder „Haus“ als Output-Daten: Daraus lernt es selbst, ein Haus oder einen Baum zu erkennen. Der Gründer von Mobile Eye Amnon Shashua, einer der Vorreiter im Bereich der Technologien zur Automatisierung im Fahrzeugbereich, hat kürzlich vorgerechnet, dass es 30 Milliarden Meilen reale Fahrten brauche, um genügend Trainingsdaten zu haben, um auch Unfallsituationen realitätsgetreu abbilden zu können. Eine unvorstellbar hohe Zahl. Wenn hingegen künstlich intelligente Systeme für den autonomen Verkehr der Zukunft aus einer ähnlichen Mischung lernen wie Alpha Go und sich die restlichen Fahrten mittels Computersimulationen selbst kreieren, geht der Lernprozess deutlich schneller vonstatten.

Denn in der Tat kennen wir hier recht viele Regeln, zumindest schon mal alle Verkehrsregeln. Kombiniert mit einer gewissen Menge an Trainingsdaten aus der echten Welt – beispielsweise aus Kameras und Sensoren von menschlich gelenkten Fahrzeugen – könnte Reinforcement Learning hier quasi eine Abkürzung darstellen.

Das echte Leben lässt sich nicht auf eine Formel reduzieren

Für viele andere Anwendungen bleibt es dabei: Die neuronalen Netze bleiben häufig unter ihren Möglichkeiten, weil zu wenig Trainingsdaten vorhanden sind – oder sie liegen falsch, weil die Daten nicht repräsentativ sind für die gestellte Aufgabe. Beides umgehen die Entwickler von Alpha Go Zero elegant und konsequent, indem sie ihre Trainingsdaten selbst schaffen und dank der eindeutigen und wenig komplexen Spielregeln dafür sorgen, dass sie repräsentativ sind für das zu lösende Problem: Es geht schlicht und einfach darum zu gewinnen. Wer gewinnt hat recht.

Werden uns die Maschinen also bald in vielen Bereichen überflügeln? Philipp Slusallek vom Deutschen Forschungszentrum für künstliche Intelligenz in Saarbrücken verweist auf den seiner Ansicht nach problematischen Begriff der „superhuman performance“: „Zwar spielt das System besser Go als jeder Mensch, aber diese Fähigkeit ist nur ein minimaler Aspekt aller menschlichen Fähigkeiten.“ Diese seien dramatisch viel breiter, allgemeiner und flexibler, als es Computer auf absehbare Zeit sein werden. Oder anders gesagt: Das echte Leben lässt sich kaum auf die Formel bringen: „Wer gewinnt, hat recht.“

Wie funktionieren selbstlernende Compuer?

Lernen

Die neue Software Alpha Go Zero wurde erfolgreich dank einer vielversprechenden Methode in der künstlichen Intelligenz: Dafür wendeten die Entwickler das sogenannte Reinforcement Learning an, das man in etwa mit „nachträglich verstärkendes Lernen“ übersetzen kann. Dabei erzeugen Computer Trainingsdaten selbst und können damit in unvorstellbar hoher Geschwindigkeit „Erfahrungen“ sammeln.

Feedback

Dabei spielen zwei Systeme gegeneinander und probieren alle denkbaren Spielzüge und Strategien durch. Jene, die zum Erfolg führen, werden nachträglich positiv bewertet, für jede verlorene Partie gibt es Minuspunkte. Dieses Feedback wird dann in das System zurückgespeist: So werden erfolgreiche Strategien identifiziert.

Zukunft

Die Verknüpfungen der neuronalen Netze des modernen maschinellen Lernens werden dank des Feedbacks an jenen Stellen und auf jenen Wegen verstärkt, über die eine erfolgreiche Strategie verlief. Ging hingegen eine Partie verloren, wird der entsprechende Weg durch die vielen Schichten eines sogenannten tiefen Netzes hingegen geschwächt: Diese Pfade werden in Zukunft seltener eingeschlagen. So wird das System immer besser, bis es die ultimative Strategie gefunden hat