Künstliche Intelligenz soll in die tägliche Arbeit in der Verwaltung einziehen (Symbolbild). Foto: Imago/Michael Bihlmayer

Künstliche Intelligenz soll die Landesverwaltung im Südwesten effizienter machen. Ein Test zeigt, wo die „F13“-KI hilft, wo sie noch Fehler macht – und welche Rolle der ursprüngliche Entwickler Aleph Alpha spielt.

Bisher hat die Künstliche Intelligenz reibungslos gearbeitet, aber an der Weißlichtmilbe scheitert sie. Als die Recherchefunktion des KI-Programms „F13“ in den Pressemitteilungen der Landesregierung nach den kleinen Tieren suchen soll, listet sie eine ganze Reihe von Gegenmitteln auf: Man solle seine Gartengeräte sauber halten, oder sie „durch das Zimmer saugen“. Das klingt plausibel, hat aber einen Haken: Weißlichtmilben sind Fantasiewesen. Die KI will sie dennoch gefunden haben – in Texten zu Stechmücken und Eichenprozessionsspinnern, allein wegen der sprachlichen Ähnlichkeit, aber ohne menschliches Verständnis.

 

Erstmals erhält bei diesem Praxistest die allgemeine Öffentlichkeit einen Live-Einblick in „F13“. Was kann die bundesweit beachtete Verwaltungs-KI, woran scheitert sie? Das zeigt Björn Beck exklusiv der Redaktion von Stuttgarter Zeitung und Stuttgarter Nachrichten.

Beck leitet das Innovationslabor im Staatsministerium und verantwortet die Entwicklung von „F13“. Nach mehr als einem Jahr im Teststadium steht die neueste Version seit August allen Angestellten des Staatsministeriums und nun auch in den übrigen Landesministerien zur Verfügung. Im Test fasst Beck damit ein Papier der Datenschutzkonferenz zusammen, die KI destilliert aus dem seitenlangen Dokument Stichpunkte heraus. Oder er recherchiert die Position des Landes zu Streuobstwiesen („F13“: „Ja, Streuobstwiesen sind sehr wichtig.“).

Diese Beispiele gelingen, anders als die Sache mit den Weißlichtmilben. Die Tiere machten als harmloser Scherz im Frühjahr im Internet die Runde – doch der Fall versinnbildlicht, welche Hürden jene meistern müssen, die wie Beck den Einsatz von KI in der Verwaltung vorantreiben wollen. Trotz aller Bemühungen produziert aktuelle Sprach-KI unweigerlich manchmal Fehler oder sogenannte Halluzinationen. Behörden müssen dagegen korrekt arbeiten.

„F13 kann Fehler machen. Bitte überprüfen Sie die Ergebnisse“ – das steht überall, wo Nutzer der KI eine Aufgabe geben können. Die Arbeitsanweisung landet bei einem sogenannten KI-Sprachmodell. Das liefert eine Antwort in Textform, samt Quellenangabe. Nutzer können Texte zusammenfassen lassen oder eine Datenbank durchsuchen. Bisher die darin die Anträge und Protokolle des Landtags, Pressemitteilungen sowie den schwarz-grünen Koalitionsvertrag enthalten.

ChatGPT für die Verwaltung

Nun werden die Ministerialen geschult. „Wir sagen den Kolleginnen und Kollegen: Du kannst Google-Ergebnisse genauso wenig blind übernehmen wie F13-Ergebnisse“, sagt Björn Beck, „du musst immer noch am Ende die persönliche Verantwortung für einen Text übernehmen.”

Vorsicht gilt besonders bei einer weiteren Funktion von F13: Einem KI-Chat, der auf freie Anweisungen hin beliebigen Text erzeugt – von der E-Mail bis zum Social-Media-Post. Im Test formuliert der Chatbot zum Beispiel einen Beitrag für das soziale Netzwerk LinkedIn. „F13“ fühlt sich da an wie ChatGPT – das Programm, das den aktuellen KI-Hype ausgelöst hat. Der Chatbot sei die beliebteste „F13“-Funktion, sagt Björn Beck: „Wir wollen diejenigen abholen, die Lust darauf haben, solche Tools zu nutzen.“ Für ihn gilt: Besser „F13" als ChatGPT. Doch die Mitarbeitenden sollen auch die Unterschiede zwischen den Funktionen kennen – und die Chatfunktion lieber nur für kreativere Aufgaben einsetzen. Denn im Unterschied zur Recherchefunktion von „F13“ greift der Chatbot nicht auf die Datenbank mit gesicherten Informationen zurück und liefert auch keine Quellen.

Aus der Recherchefunktion lassen sich dagegen auch sehr spezifische Informationen herausholen, die der allgemeine Chatbot nicht beantworten kann. Beck gibt in der „F13“-Recherchefunktion beispielhaft eine Frage ei, welche Haltung Staatsminister und „F13“-Miterfinder Florian Stegmann zu Direktaufträgen an Start-ups habe. Die KI durchsucht alle Landtagsdrucksachen und Pressemitteilungen, und nach einigen Sekunden taucht die Antwort auf dem Bildschirm auf: „Laut dem Interview mit dem Staatsanzeiger für Baden-Württemberg möchte Herr Florian Stegmann die Start-up-Landschaft in Baden-Württemberg stärken“, steht dort. „Dabei wird die Wertgrenze für Direktaufträge ohne formales Vergabeverfahren auf 221 000 Euro angehoben.“ Und tatsächlich: Genau auf dieses Zitat von Stegmann zielte die Frage, die KI verlinkt unter der Antwort auf die entsprechende Pressemitteilung und führt mehrere Textstellen an, auf die sich die Antwort stützt – und zwar nicht nur jene, die den genauen Wortlaut der Frage enthalten, eine Stärke dieser Art von KI-Systemen. 

Die Recherchefunktion von F13. Foto: Staatsministerium/Linkedin/Screenshot

Und die Weißlichtmilbe? Beck ist zuversichtlich, dass die Landesbediensteten sich nicht mit überzeugend klingenden, aber falschen KI-Antworten abfinden. „In der Verwaltung ist der Ethos nach meiner Erfahrung sehr hoch, die Leute wollen ihren Job gut machen“, sagt Beck. „Ich sehe darin eher eine Chance, die Beschäftigten so zu entlasten, dass sie dort mehr Zeit haben, wo es darauf ankommt.“

Wie kommt „F13“ bei den Beschäftigten an?

Den „F13“-Prototyp hat Beck von Ministeriumsmitarbeitern testen lassen und sie anschließend befragt. Mehr als 70 Prozent von ihnen glauben demnach, dass F13 sie zumindest von manchen Routineaufgaben entlasten und die Verwaltung effizienter machen könne. Potenzial für die tägliche Arbeit sahen ebenfalls fast drei von vier Befragten – allerdings erst bei einer verbesserten Vollversion. Beim Prototyp, der mehr als 10 000 Texte zusammengefasst und 4000 Recherchefragen beantwortet hat, waren noch Mängel aufgetaucht. Gelobt wurde, dass die KI ihre Quellen aufführt.

Hört man sich in der Landesverwaltung um, so teilen noch nicht alle Becks Begeisterung. An der Umfrage haben nur 156 Personen teilgenommen, mit dem Start in den Ministerien können nun Tausende „F13“ nutzen. Fragen, ob die weit sechsstelligen Kosten den Nutzen rechtfertigen, hat kürzlich auch die FDP-Landtagsfraktion an die Landesregierung gestellt – eine Antwort steht derzeit noch aus.

Björn Beck, Leiter des Innovationslabors der Landesverwaltung. Foto: Staatsministerium/Philipp Foell

Beck, der zuvor im Justizministerium die E-Akte mit eingeführt hat, kennt die Hürden beim Digitalisieren der Verwaltung. „Wir müssen allen die Chance geben, mitgenommen zu werden“, sagt er. „Es geht um Unterstützung in einzelnen Bereichen, um Vortätigkeiten, um einzelne Prozessschritte.“ Er hält „F13“ nicht nur für nützlich, sondern unbedingt notwendig, auch wegen der anstehenden Pensionierungswelle.

Die Rolle von Aleph Alpha

Die Landesregierung hat stets darauf hingewiesen, dass der „F13“-Prototyp von Aleph Alpha entwickelt wurde. Das Heidelberger KI-Start-up, als große Hoffnung gehandelt, legt seinen Schwerpunkt mittlerweile nicht mehr auf das eigene Sprachmodell, sondern auf ganze KI-Softwarepakete. An „F13“ ist Aleph Alpha nur noch indirekt beteiligt – die Software wird nun von PD weiterentwickelt, einem Dienstleister der öffentlichen Hand. In „F13“ steckt aber weiterhin auch das Sprachmodell von Aleph Alpha.

An dem Modell gab es zuletzt von vielen Seiten Kritik. Seit Monaten lautete der Vorwurf, die KI sei nicht mehr auf dem neuesten Stand, eine neue Generation steht gerade erst in den Startlöchern. Sie soll jedoch nicht mehr in allen Disziplinen gleichermaßen mithalten können, sondern für Spezialanwendungen dienen. Für Recherchen und Textzusammenfassungen hält Beck das Aleph-Alpha-Modell für gut geeignet, es liefere prägnante Antworten. Die freie Chatfunktion läuft dagegen wohl nicht ganz zufällig mit einem Sprachmodell der Konkurrenzfirma Mistral aus Frankreich.

Im Test gibt das Aleph-Alpha-Modell auf viele Fragen oft nur einen Satz aus, während andere teils ausschweifend antworten. Es soll künftig nur noch auf Spezialgebieten mithalten. „F13“ ist offen für verschiedene Modelle, verzichtet aber auf die besonders teuren Sprachmodelle von Anbietern wie OpenAI oder Anthropic und läuft technisch in Rechenzentren des Landes und der Schwarz-Gruppe statt bei Google, Amazon oder anderen US-Tech-Riesen. Unabhängigkeit ist bei einer Verwaltungs-KI wichtiger, als den besten Chatbot zu haben.

Man sei mit „F13“ erst am Anfang, sagt Björn Beck, und spricht von einem „Betriebssytem“. Ein „Textlab“ zum Verbessern von Texten ist bereits freigeschaltet, integriert werden könnten auch KI-Bildgeneratoren, wie sie das Freiburger Start-up Black Forest Labs anbietet. Auch die Recherche-Datenbank soll jede Behörde selbst erweitern können. „Das fängt beim Handbuch für neue Mitarbeiterinnen und Mitarbeiter an“, sagt Beck.

Verbessert wird die Software ebenfalls noch. Wenige Wochen nach dem ersten Test folgt ein neuer Versuch. Die Recherchefunktion soll inzwischen weniger erfinden, wenn ihr Quellen fehlen. Und die Weißlichtmilbe, auf die beim ersten Versuch beide Sprachmodelle hereingefallen sind? „Ich konnte die Frage mit den gegebenen Quellen nicht beantworten“: Das Mistral-Sprachmodell winkt ab und liefert so endlich die erwartete Antwort: Keine Spur von Weißlichtmilben in den Dokumenten des Landes. Die KI von Aleph Alpha hingegen rät gewohnt einsilbig: „Mückenlarven bekämpfen und Brutstätten entfernen.“ Als Quelle werden erneut Texte zu Stechmücken angegeben.