Warum Human-in-the-loop keine Verantwortung garantiert

6. Mai

Verfasst von Fabian V

… und warum Verantwortung oft früher beginnt, als man denkt

Bei KI-gestützten Entscheidungen kann man es sich einfach machen relativ einfach machen. Das System gibt einen Vorschlag aus, ein Mensch schaut noch einmal darüber und am Ende wird dann entschieden, ob der KI-Vorschlag korrekt ist. Das klingt sauber weil die KI nur unterstützt und der Mensch verantwortlich bleibt. Damit scheint die Sache zwar erstmal erledigt, aber genau an diesem Punkt wird es meiner Meinung nach interessant.

Denn oft ist die Entscheidung am Ende gar nicht mehr der erste wirklich relevante Moment. In der Regel ist bis dahin schon sehr viel passiert. Informationen wurden ausgewählt, Daten sortiert, Risiken markiert, Alternativen gewichtet und bestimmte Optionen wirken bereits deutlich naheliegender als andere. Der Mensch trifft seine Entscheidung also nicht in einem neutralen Raum sondern einem vorbereiteten Raum.

Und wenn dieser Raum von KI vorbereitet wird, dann verändert sich auch die Frage nach Verantwortung.

Das bedeutet nicht, dass jede KI-Zusammenfassung schon eine Entscheidung ist oder, dass jede Empfehlung automatisch problematisch wäre. Viele dieser Systeme können sehr hilfreich sein. Sie können Menschen entlasten, Informationen schneller verfügbar machen und dabei helfen, bessere Entscheidungen vorzubereiten.

Trotzdem reicht der klassische Satz „Am Ende entscheidet ja noch ein Mensch“ aus meiner Sicht nicht mehr aus. Er ist zwar für alle Beteiligten beruhigend, aber er blendet aus, dass Entscheidungen nicht erst im letzten Klick entstehen.

Rechtlich fällt die Entscheidung erst am Ende. Faktisch und organisatorisch wird sie aber oft schon früher geprägt. Eine Entscheidung beginnt meiner Meinung nach schon dort wo festgelegt wird, welche Daten überhaupt relevant sind. Sie beginnt dort, wo beispielsweise ein Score berechnet wird. Dort, wo eine Anfrage nach oben oder unten sortiert wird. Dort, wo ein Risiko rot markiert wird. Dort, wo ein Vorschlag als besonders plausibel erscheint.

Damit verschiebt sich die eigentliche Frage von “Entscheidet der Mensch oder die Maschine?” zu “Welche Teile der Entscheidung werden bereits (wie) vorbereitet, bevor der Mensch überhaupt an der Reihe ist?”

Die stille Macht der Vorbereitung

Auf den ersten Blick kann man Entscheidungen als einzelne Momente betrachten. Jemand prüft z.B. einen Antrag, entscheidet über eine Bewerbung, gibt einen Kredit frei, priorisiert eine Anfrage oder wählt eine Maßnahme aus. Dieser Moment ist gut sichtbar, kann dokumentiert werden und oft ist auch der Name der Person hinterlegt, die entschieden hat.

Aber im Arbeitsalltag ist dieser Moment meistens nur der Endpunkt einer längeren Kette. Vorher wurde schon festgelegt welche Informationen in die Entscheidung einfließen. Es wurde definiert welche Kriterien zählen (z. B. ein Schwellenwert). Vielleicht wurden Anfragen automatisch kategorisiert, aus mehreren Datenquellen eine Einschätzung erzeugt oder ein System hat eine Empfehlung formuliert, die sauber und professionell aussieht.

Genau dort liegt die stille Macht von KI, die man auf den ersten Blick übersieht. Sie muss gar nicht selbst “Ja” oder “Nein” sagen. Es reicht, wenn sie etwas so vorbereitet, dass es später als vernünftig erscheint. Wenn sie bestimmt, was sichtbar wird, was auffällig ist bzw. nach Risiko aussieht und welche Option sich am besten begründen lässt, dann prägt sie die Entscheidung des Menschen bereits mit.

Das sieht man besonders deutlich bei Scores und Rankings. Ein Score ist auf den ersten Blick nur eine Zahl. Ein Ranking ist auf den ersten Blick nur eine Sortierung. Aber in einem Prozess können solche Dinge eine enorme Wirkung entfalten. Was oben steht, wird beispielsweise zuerst gesehen. Was rot markiert ist, wirkt dringlicher. Was einen niedrigen Score hat, muss sich rechtfertigen. Was vom System als unauffällig eingeordnet wird bekommt möglicherweise nicht mehr viel Aufmerksamkeit. Damit wird aus Information schnell eine Gewichtung und eine gewichtung kann im Alltag eine Vorentscheidung werden.

Rollen von KI im Entscheidungsprozess

KI kann sehr unterschiedliche Rollen in einem Entscheidungsprozess einnehmen:

KI als Informationslieferant: Sie fasst Dokumente zusammen, recherchiert oder bereitet einen Text vor. Das erweitert die Wissensbasis, aber der Mensch bleibt relativ frei darin was er daraus macht.
KI als Strukturlieferant: Sie kategorisiert Anfragen, ordnet bzw. sortiert Vorgänge oder macht sichtbar, was zuerst bearbeitet werden sollte. Das ist schon ein stärkerer Eingriff, weil es beeinflusst wohin Aufmerksamkeit gelenkt wird.
Ki die empfiehlt: Zum Beispiel ein Ranking, ein Risikoscore oder eine Handlungsempfehlung sagen nicht nur “Hier sind Informationen” sondern eher “Diese Option wirkt nach den vorliegenden Kriterien besser (oder riskanter, dringlicher, wahrscheinlicher…)”
KI die eine Vorentscheidung trifft: Das ist zum Beispiel der Fall, wenn ein System einen Vorschlag erzeugt, der standardmäßig übernommen wird, solange niemand aktiv widerspricht. Dann entscheidet der Mensch zwar noch offiziell, aber sind wir ehrlich, in der Praxis wird häufig einfach nur noch bestätigt, was das System vorbereitet hat.
KI die eine Entscheidung trifft: Das System lehnt automatisch ab, genehmigt automatisch, teilt automatisch zu oder löst automatisch einen Prozess aus. Dann ist die Verantwortung offensichtlich anders zu klären.

Der schwierige Bereich liegt dort wo man noch sagen kann “Es ist ja nur eine Empfehlung”. Denn in Organisationen können Empfehlungen sehr mächtig werden, wenn sie in Prozesse eingebettet sind oder mit Kennzahlen verbunden werden.

Warum Human-in-the-loop oft zu wenig sagt

An dieser Stelle kommt dann häufig der Begriff Human-in-the-loop (HITL) ins Spiel. Das klingt erstmal nach einer guten Lösung bei der die KI nicht alles alleine macht sondern ein Mensch beteiligt bleibt. Der Mensch prüft, bewertet, gibt frei oder kann im Zweifel widersprechen.

Das ist grundsätzlich auch richtig und wichtig. Aber es reicht eben nicht, einfach irgendwo einen Menschen in den Prozess zu setzen und dann zu denken, dass die Verantwortung damit geklärt ist. Denn entscheidend ist nicht nur, ob ein Mensch beteiligt ist, sondern was dieser Mensch letztendlich tatsächlich tun kann.

Hat er genug Zeit, den Vorschlag wirklich zu prüfen? Versteht er, wo die Grenzen des KI Systems liegen? Sieht er Unsicherheiten oder bekommt er nur ein scheinbar klares Ergebnis angezeigt? Kann er zusätzliche Informationen einbeziehen? Darf er dem System widersprechen ohne sich angreifbar zu machen? Und wird ein Widerspruch als professioneller Teil der Arbeit gesehen oder eher als Störung eines effizienten Ablaufs?

Diese Fragen klingen vielleicht banal, aber an solchen Themen entscheidet sich, ob menschliche Aufsicht wirklich stattfindet oder nur auf dem Papier existiert.

Die theoretische Möglichkeit einem KI System zu widersprechen ist für sich alleine noch keine Verantwortung. Wenn niemand sie nutzt, weil Abweichungen zB viel Aufwand bei der Begründung kosten, dann ist sie eher Dekoration. Wenn Menschen zwar theoretisch widersprechen dürfen, aber praktisch nach Durchlaufzeit, Fallzahlen oder Effizienz gemessen werden, dann wird Zustimmung immer wahrscheinlicher und wirkliche kontrolle immer unwahrscheinlicher. Und wenn der Vorschlag der KI dann auch noch sauberer, objektiver und professioneller wirkt als das eigene Urteil entsteht ebenfalls ein Druck zum “Durchwinken”.

Das ist kein individuelles Versagens sondern eine Frage der Organisation innerhalb des Unternehmens. Menschen entscheiden nie losgelöst von ihrem Umfeld. Sie reagieren auf Zeitdruck, Erwartungen, Kennzahlen, Dokumentationspflichten und darauf was in ihrer Organisation als professionell gilt. Wenn ein System eine Empfehlung liefert und der Mensch vor allem dafür zuständig ist, sie schnell zu bestätigen, dann ist das keine Aufsicht. Der Mensch wird dann einfach nur die letzte Legitimationsinstanz eines bereits vorbestimmten Prozesses.

Wenn Erklärungen Ergebnisse überzeugender machen

Ein weiterer Punkt wird aus meiner Sicht oft unterschätzt. Manche Personen setzen große Hoffnung auf einen “erklärenden” Ansatz bei KI. Der Gedanke dahinter ist eigentlich naheliegend: Wenn das KI System erklärt, warum es etwas empfiehlt, kann der Mensch besser prüfen und so mehr Kontrolle ermöglichen.

Das stimmt aber nicht automatisch. Eine Erklärung kann zwar helfen, einen Vorschlag besser prüfen zu können aber sie kann auch dazu führen, dass ein Vorschlag noch überzeugender wirkt. Besonders dann, wenn sie sprachlich sehr sauber ist oder z. B. fachlich plausibel erscheint. Dann ist die Erklärung des KI Systems eher eine Überredungshilfe statt Kontrollhilfe.

Das ist besonders dann problematisch, wenn der Output falsch ist (z.B. bei Halluzinationen). Ein falscher Vorschlag ohne Erklärung wird vielleicht eher hinterfragt. Ein falscher Vorschlag mit einer guten Erklärung wirkt dagegen schnell vernünftig. Dann vertraut der Mensch nicht nur dem Ergebnis sondern auch der scheinbaren Begründung. Deshalb reicht es nicht, dass ein KI System irgendetwas erklärt. Eine gute Erklärung muss echte Prüfung ermöglichen. Sie muss zeigen, was das System berücksichtigt hat, wo Unsicherheit liegt, welche Alternativen möglich wären und was das System vielleicht gerade nicht weiß. Sonst entsteht nur eine nachträgliche Plausibilisierung und das ist nicht das selbe wie Wahrheit.

Problematisch: hybride Scheinkontrolle

Vielleicht ist deshalb nicht nur die vollautomatische Entscheidung problematisch. Die ist natürlich kritisch, weil das System direkt handelt. Aber sie ist wenigstens gut erkennbar. Man sieht relativ klar: Hier wurde automatisiert entschieden. Schwieriger ist eine hybride Scheinkontrolle bestehend aus einem KI System das empfiehlt und einem Menschen der bestätigt. Hier treffen nämlich ganz viele Interessen aufeinander. Das Ki-Modellteam verweist auf die technischen Möglichkeiten, der Fachbereich auf den Prozess, die Daten stammen aus einem Vorsystem usw.

Wenn später etwas schiefgeht, dann ist nicht mehr eindeutig, wo die Entscheidung eigentlich entstanden ist. Jeder war irgendwie beteiligt, aber niemand fühlt sich vollständig verantwortlich. Die Verantwortung verteilt sich dann über Daten, Modell, Prozess, Nutzer und die finale Freigabe. Das macht diese Konstellation meiner Meinung nach Riskant.

Die Organisation kann sagen, dass ein Mensch entschieden hat. Der Mensch kann sagen, dass er sich auf das KI-System verlassen hat. Das KI-System wiederum wurde nur für einen Zweck gebaut, den andere definiert haben.

Governance beginnt mit der Entscheidung, nicht mit dem Tool

Darum sollte KI-Governance aus meiner Sicht nicht mit der Frage beginnen, welches Tool eingesetzt wird. Sie sollte mit der Frage beginnen, welche Entscheidung eigentlich vorbereitet wird.
Geht es um eine interne Arbeitshilfe oder um den Zugang zu einer Leistung? Geht es um Information oder Priorisierung? Geht es um einen unverbindlichen Entwurf oder um einen Score, der später kaum noch übergangen wird? Wer ist betroffen? Wer trägt das Risiko eines Fehlers? Wer profitiert von Effizienz? Und wer lebt am Ende mit den Folgen?

Erst wenn solche Fragen geklärt sind, kann man sinnvoll über Datenqualität, Modellgüte, Transparenz, Rollen, Monitoring und rechtliche Anforderungen sprechen. Bei einer einfachen Zusammenfassung braucht es andere Kontrollen als bei einem Risikoscore. Bei einer Suchhilfe andere als bei einer automatisierten Vorentscheidung. Bei einem internen Textentwurf andere als bei einer KI, die Bewerbungen vorsortiert, Kreditanfragen bewertet oder medizinische Fälle priorisiert.

Eine pragmatische Faustregel könnte sein: Je stärker KI den Handlungskorridor verengt, desto klarer muss Verantwortung gestaltet werden.

Ich meine damit nicht, dass man KI aus Angst vermeiden sollte. Man sollte aber die richtige Sorgfalt an der richtigen Stelle einbauen. Eine Organisation sollte genau wissen, wann ein KISystem nur unterstützt und wann es beginnt, die Richtung einer Entscheidung mitzubestimmen.

Fazit

Der Satz “Am Ende entscheidet ja noch ein Mensch” wird in den nächsten Jahren bestimmt noch oft fallen. In Projektanträgen, Präsentationen, Governance-Konzepten und Diskussionen mit Datenschutz, Betriebsrat oder Führungskräften. Er ist auch nicht falsch, aber manchmal etwas bequem. Denn entscheidend ist nicht nur, wer am Ende auf OK oder Freigeben klickt. Entscheidend ist, wie der Raum gestaltet wurde, in dem dieser Klick sinnvoll erschien. Welche Informationen lagen vor? Welche Optionen wurden sichtbar? Welche Empfehlung wurde nahegelegt? Welche Unsicherheit wurde gezeigt? Welche Abweichung musste begründet werden? Und wer konnte wirklich anders entscheiden?

KI wird nicht erst relevant, wenn sie die finale Entscheidung trifft. Sie wird schon dort relevant, wo sie Entscheidungen vorbereitet. Das kann sehr hilfreich sein und gute Entscheidungsvorbereitung ist wertvoll. Aber je stärker KI diese Vorbereitung übernimmt, desto genauer muss Verantwortung gestaltet werden.

tl;dr

KI entscheidet nicht erst dann mit, wenn sie automatisch genehmigt, ablehnt oder zuteilt. Sie beeinflusst Entscheidungen bereits früher: indem sie Informationen auswählt, Risiken markiert, Fälle priorisiert, Scores berechnet oder Empfehlungen formuliert.

Deshalb reicht Human-in-the-loop alleine manchmal nicht aus. Entscheidend ist nicht, ob irgendwo ein Mensch beteiligt ist, sondern ob dieser Mensch den KI-Output wirklich verstehen, prüfen, hinterfragen und wirksam von ihm abweichen kann. Der Blick sollte deshalb nicht nur auf den finalen Klick gehen, sondern auf die vorgelagerten Schritte: Welche Informationen wurden ausgewählt, welche Optionen nahegelegt und welche Richtung war bereits vorbereitet, bevor der Mensch entschieden hat?

Je stärker KI den Handlungskorridor vorformt, desto klarer müssen Verantwortung, Rollen, Override-Regeln, Monitoring und Anfechtbarkeit geregelt sein. Nur dann ist menschliche Aufsicht mehr als eine Beruhigungsformel.

Fabian V