So sehen die Straßen von Zürich im Computermodel Varcity aus. Foto: Computer Vision Lab ETH Zürich

Forscher haben Zürich allein aus Bilddaten modelliert. Das eröffnet Stadtplanern neue Möglichkeiten. Gleichzeitig soll dabei der Datenschutz nicht zu kurz kommen.

Zürich - Hier ein Foto vom Opernhaus, da eines von der Limmat, dort eines der wuseligen Fußgängerzone mit ihren geduckten alten Häuschen: wenn Touristen nach Zürich kommen, schießen sie allerhand Fotos – und viele landen auf Internet-Plattformen, auf denen sie öffentlich verfügbar sind. Was die wenigsten Touristen wissen: in ihren Bildern steckt mehr Wissen über eine Stadt, als sie ahnen.

Forscher der ETH Zürich haben in in den vergangenen fünf Jahren Millionen Fotos und Videos ihrer Heimatstadt gesammelt – sowohl von Touristen als auch von öffentlichen Webcams und anderen Kameras in der Stadt – um daraus ein Modell der Stadt zu erstellen. Ein Modell, das mehr ist als eine dreidimensionale Abbildung. Aus den Daten geht hervor, aus welchem Material Fassaden sind, wie viele Fenster ein Haus hat, wie groß diese sind und welche Funktion ein Gebäude hat: ist es eine Kirche, eine Sehenswürdigkeit oder ein Privathaus? Wie viele Personen betreten es durchschnittlich pro Tag? Wo entsteht gerade ein Stau? Wo sammeln sich Menschen?

„Das Einzigartige an unserem Projekt ist, dass wir eine ganze Stadt allein anhand von Bilddaten modelliert haben“, sagt Hayko Riemenschneider vom Computer Vision Lab der ETH Zürich. Vergleichbare Projekte bleiben bei einzelnen Details stehen – etwa dabei, Häuser als solche zu erkennen. Und alle kämpfen mit den Tücken der künstlichen Intelligenz und der Bilderkennung, die trotz vieler Erfolgsmeldungen noch in den Kinderschuhen steckt. Das zeigen Beispielfälle, in denen Bilderkennungsalgorithmen nur auf der Grundlage von Trainingsdaten und ohne von Menschen vorgegebene Regeln feststellen sollten, was auf einem Bild zu sehen ist. So versah die Bilderkennung von Google vor etwa einem Jahr das Foto einer schwarzen Frau mit der Bildunterschrift „Gorilla“.

Was Algorithmen über Fenster wissen müssen

Riemenschneider und seine Kollegen vertrauen deshalb nicht nur auf jene Art des maschinellen Lernens, die ganz ohne Regeln auskommt. Sie haben einen Algorithmus trainiert, in dem sie ihm eine Vielzahl an Fotos von Fenstern gaben, aus denen er lernte, was ein Fenster ausmacht. Diese Informationen wurden mit einigen Regeln ergänzt. Beispielsweise mit dem Hinweis, dass das, was sich in einem Fenster spiegelt, vom Standpunkt des Betrachters abhängt.

So erkennt das System Fenster auf Flächen auch daran, dass sich diese verändern – abhängig vom Winkel, aus dem ein Gebäude aufgenommen wird. Straßen erkennt das System sowohl auf der Grundlage vieler Straßenfotos, die Menschen als solche gekennzeichnet haben, als auch auf Grundlage des programmierten Wissens, dass Straßen horizontal verlaufen, dass Autos darauf fahren und sich an ihren Seiten in der Regel Gehwege mit Fußgängern befinden. „Bildverarbeitung ist ein noch junges Feld, auf dem Fehler passieren. Wir haben verschiedene Methoden kombiniert, damit sie sich ausgleichen“, sagt Riemenschneider.

Das Varcity-Modell lernt zudem durch künstliche Intelligenz ständig dazu. Wie oft und aus welchen Perspektiven wurde ein Gebäude fotografiert? Auf welchen Plattformen taucht das Bild auf? Daraus können intelligente Algorithmen schlussfolgern, ob es sich vermutlich um eine Sehenswürdigkeit handelt oder um ein normales Wohnhaus. Auch die Zahl der Menschen, die es täglich betreten, gibt Auskunft darüber, ob es etwa ein öffentliches Gebäude wie ein Rathaus ist. Hat es einen Turm? Dann ist es vermutlich eine Kirche.

Veränderungen an Gebäuden können simuliert werden

Dank des Modells können Veränderungen aller Art geplant werden: etwa wie es sich auf die Umgebung auswirkt, wenn ein Haus um einige Stockwerke erhöht wird. Wo wirft es Schatten? Wie viel Licht kommt aktuell durch die Fenster des Nachbarhauses? Deren Zahl und Größe samt des Einfallswinkel des Sonnenlichts lässt sich aus den Bilddaten extrahieren. Oder soll eine Kreuzung umgestaltet werden? In welcher Form muss das geschehen, damit der Verkehr besser fließt und sich nicht an anderer Stelle staut?

Auf Grundlage der Echtzeitinformationen, die ebenfalls im Modell vorhanden sind, könnten etwa in Zukunft Ampeln geschaltet werden, abhängig von der aktuellen Verkehrslage und der Echtzeit-Berechnung für einen optimalen Verkehrsfluss in der gesamten Stadt. Es könnte erkannt werden, wo es gerade ein ungewöhnliches Ereignis gibt, wo sich Menschen sammeln oder auch ungewöhnlich bewegen. Auch die Logistik von Großveranstaltungen könnte in Echtzeit geplant und verbessert werden.

Einige erste Studien mit dem Modell zeigen, wie gut die Künstliche Intelligenz die Perspektive der Menschen bereits verstanden hat. So ließen die Forscher das System eine Stadtführung entwickeln, die alle wichtigen Sehenswürdigkeiten abdeckt. Sie machten keine Vorgaben, welche Gebäude dazugehören müssen. „Das Ergebnis kam echten, von Menschen geplanten Stadtführungen sehr nah“, so Riemenschneider.

Die Navigation könnte intuitiver werden

Auch Navigationsanwendungen könnten auf dieser Grundlage deutlich intuitiver werden: anstatt mit Angaben wie „In 100 Metern rechts abbiegen“ zu arbeiten, orientiert sich das System der Forscher an so genannten Landmarken, so wie Menschen das tun: „Jetzt bis zum großen roten Haus, und dann rechts.“ Das allerdings brachte auch die Erkenntnis mit sich, dass Menschen nicht immer die gleichen Merkmale für auffällig halten wie Computer: „Wir mussten dafür erst ein mal lernen, was Menschen als Besonderheiten erkennen – beispielsweise ob sie eine große Tür ebenso auffällig finden wie unsere Software es tut.“

Es sind also vielfältige Anwendungen denkbar. „Unser Ziel war vor allem zu zeigen, dass es geht, ein Modell nur aus Bildern zu schaffen“, so Riemenschneider. Erste Ausgründungen des Projektes arbeiten an einer Software, die freie Parkplätze erkennt oder an einem Service für Versicherungen, der Gebäudeschäden detektiert. Prinzipiell seien die Algorithmen auch für andere Städte anwendbar. Zumindest für solche, in denen Kirchen Türme haben und insgesamt eine ähnliche Architektur vorherrscht.

So soll die Privatsphäre geschützt werden

Problem Bilddaten aller Art können für Stadtplaner sehr wertvoll sein, andererseits rufen sie Bedenken rund um die Privatsphäre hervor. So können im Extemfall Bewegungsprofile Einzelner erstellt werden. Dem sind sich die Wissenschaftler bewusst, und sie betonen, dass ihr System von Anfang an nach dem Motto „Privacy by design“ entwickelt wurde.

Lösung Privacy by design bedeutet, dass die Privatsphäre bereits bei der Grundlage eines Systems bedacht wird. Bei Varcity gelangen keinerlei Fotos oder Videos an sich an die Öffentlichkeit, sondern diese Daten werden – teils in Echtzeit – von Computerprogammen in ein Modell umgerechnet. Erst dieses wird dann für die Stadtplanung und andere Zwecke verwendet.

Google Anders als bei Google Street View, wo Menschen und Häuser auf Wunsch nachträglich gepixelt wurden, kommen Informationen, die einzelne Personen identifizieren könnten, bei Varcity gar nicht erst ins Endprodukt. So wird zum Beispiel verhindert, dass eine Person übersehen und nicht gepixelt wird.

Modell Im Modell der Stadt Zürich kann man keine einzelnen Personen erkennen, sondern nur, wo sich gerade welche Anzahl an Menschen aufhält. Ebenso ist es bei Fahrzeugen: anstatt Fotos von Autos zu verwenden und das Kennzeichen zu pixeln, erscheinen sie als modellierte Fahrzeuge. Sie werden gewissermaßen zum Avatar ihrer selbst.