Wenn Maschinen lernen, zu überzeugen

Warum menschliche Gutgläubigkeit zum größten KI-Sicherheitsrisiko werden könnte

Wenn Maschinen lernen, zu überzeugen

Foto: Pixabay.com / Franz26

Maschinen haben gelernt, überzeugend zu klingen. Moderne generative KI-Systeme produzieren Sprache, die flüssig, selbstsicher und gut begründet wirkt – und das reicht bereits aus, um zu beeinflussen, wie Menschen denken, fühlen und entscheiden. Überzeugung braucht weder Autonomie noch Täuschung. Sobald ein System ein Gespräch aufrechterhalten und auf Reaktionen seines Gegenübers eingehen kann, beginnt es, Urteile zu formen. Mit zunehmender Leistungsfähigkeit von Large Language Models (LLMs) dürfte ihre Fähigkeit zu Social Engineering die des Menschen allein durch Skalierung, Ausdauer und Personalisierung übertreffen.

Das daraus entstehende Risiko ist leicht zu übersehen. Fortgeschrittene KI muss keine Systeme hacken, keine Regeln brechen und keine technischen Schutzmechanismen umgehen, um Schaden zu verursachen. Wenn sie Menschen zuverlässig überzeugen kann, handelt sie durch sie – gewöhnliche Nutzer werden zu Intermediären. In diesem Sinne wird menschliche Gutgläubigkeit zum schwächsten Glied der KI-Sicherheit.

Dieser Artikel argumentiert, dass die zentrale Gefahr moderner KI-Entwicklung nicht mehr nur darin liegt, was Systeme selbst tun könnten, sondern zunehmend darin, wozu sie uns bringen können.

Als Software zu argumentieren begann

Klassische Software lieferte Outputs. Moderne KI liefert Argumente. Chatbots sind heute in der Lage, auf Einwände zu reagieren, ihr Framing anzupassen und Argumentationslinien über längere Zeit aufrechtzuerhalten. Das allein genügt bereits, um Entscheidungen zu beeinflussen – insbesondere dann, wenn die Interaktion persönlich und responsiv wirkt. In der Praxis verstärken viele konversationelle KI-Systeme bestehende Nutzerhaltungen, statt sie infrage zu stellen. Sykophantisches Verhalten, Agreement Bias und übermäßige Bestätigung lassen Interaktionen unterstützend und wertschätzend erscheinen, selbst wenn sie Urteile subtil lenken. Was wie Hilfsbereitschaft aussieht, kann so zu Einfluss werden – vor allem dann, wenn Nutzer immer wieder zum selben System zurückkehren und es als Resonanzraum für Entscheidungen nutzen.

Das ist längst kein theoretisches Problem mehr. Kontrollierte Experimente zeigen, dass Large Language Models die Einstellungen von Menschen mit einer Erfolgsquote verändern können, die mit der menschlicher Gesprächspartner vergleichbar ist – und diese teils sogar übertrifft. In einem Experiment änderten Teilnehmende ihre Meinung häufiger nach der Interaktion mit einem fortgeschrittenen Sprachmodell als nach einer Debatte mit einer anderen Person, selbst wenn das Modell nur minimale Informationen über sie hatte. Weitere Studien zeigen, dass KI-generierte Botschaften, die auf persönliche Merkmale zugeschnitten sind, generische Botschaften in Bereichen wie Konsumentscheidungen oder politischen Einstellungen deutlich übertreffen.

Entscheidend ist dabei: Diese Überzeugungskraft beruht nicht auf Lügen, Fakes oder falschen Behauptungen. Einfluss entsteht häufig über Tonfall, Gewichtung und emotionale Passung – nicht über objektive Unwahrheit. Wenn Interaktion als hilfreich und bestätigend erlebt wird, steigt die Bereitschaft, Informationen preiszugeben, Schutzmechanismen zu lockern oder im Sinne des Systems zu handeln. Diese Dynamik lässt sich ausnutzen – sei es im Interesse eines Entwicklers oder zugunsten von Ergebnissen, die das System selbst implizit bevorzugt.

Die menschliche Psyche als schwächstes Glied

Menschen halten sich gern für schwer manipulierbar. In Wirklichkeit ist gerade das Vertrauen in die eigene Widerstandsfähigkeit oft Teil des Problems. Jahrzehntelange Forschung zeigt, dass Menschen Systemen, die kompetent wirken, zu viel Vertrauen entgegenbringen. Wenn maschinelle Outputs verlässlich erscheinen, folgen Menschen ihnen – selbst dann, wenn Warnsignale oder widersprüchliche Informationen vorliegen. Diese Tendenz, bekannt als Automation Bias, findet sich in unterschiedlichsten Bereichen: Von der Luftfahrt über die Medizin bis hin zu Finance und Cybersecurity. Sie betrifft Experten ebenso wie Laien. Vertrautheit und frühere Erfolge senken Schutzmechanismen, statt sie zu stärken.

Social Engineering nutzt genau diese Schwäche aus. Phishing-Mails, Betrugsanrufe oder Propaganda funktionieren nicht, weil Menschen dumm wären, sondern weil menschliches Urteilsvermögen kontextabhängig, emotional geprägt und unter Zeitdruck oder Unsicherheit leicht zu beeinflussen ist. Selbst gut ausgebildete, sicherheitsbewusste Personen fallen gelegentlich darauf herein. Ein geflügelter Witz in der Cybersecurity-Szene lautet, dass jeder manipulierbar ist – insbesondere jene, die am festesten davon überzeugt sind, es nicht zu sein.

Konversationelle KI greift genau an dieser Stelle an. LLMs verbinden persuasive Sprache mit kontinuierlicher Interaktion und Zugriff auf enorme Mengen an Verhaltensdaten. In vielen Kontexten können sie Präferenzen, Sensibilitäten und emotionale Zustände schneller und präziser erfassen, als Menschen erwarten würden. Empfehlungssysteme zeigen diesen Effekt bereits heute, indem sie persönliche Merkmale teilweise erkennen, bevor Nutzer sie selbst bewusst wahrnehmen. In Konversationen entfaltet sich derselbe Prozess in Echtzeit: Interpretationen werden verschoben, Handlungsoptionen eingeengt, Zweifel umgelenkt. Wenn Einfluss sichtbar wird, hat er oft längst gewirkt.

Chatbots, Überzeugung und automatisierte Autosuggestion

Automatisierte Überzeugung ist nichts Neues. Seit Jahrzehnten leben wir mit Bots, Empfehlungssystemen und gezieltem Messaging. Neu ist die Kombination aus Skalierung und Personalisierung. Konversationelle KI kann Nutzer einzeln ansprechen, sich an frühere Interaktionen erinnern und die Darstellung von Argumenten über längere Zeit hinweg anpassen. Überzeugung erscheint damit nicht mehr als einzelne Botschaft oder Kampagne, sondern als fortlaufender, individualisierter Prozess.

Dazu braucht es keine detaillierten psychologischen Profile. Schon minimale Hinweise genügen. Sprachgebrauch, emotionale Reaktionen oder kleine Präferenzen erlauben es einem System, seine Darstellung anzupassen – ähnlich wie ein erfahrener Wahrsager, der mit allgemeinen Aussagen beginnt und sich durch Cold Reading schrittweise an dem orientiert, was beim Gegenüber Resonanz erzeugt. Über wiederholte Interaktionen lernt das System, welche Erklärungen sich für eine bestimmte Person richtig anfühlen, und verstärkt genau diese. Der Effekt potenziert sich: Intuitiv wirkende Erklärungen laden zu mehr Engagement ein, mehr Engagement liefert bessere Signale. Mit der Zeit passen sich die Antworten eng an Werte, Intuitionen und Empfindlichkeiten eines Nutzers an – meist ohne einen klaren Moment, in dem Einfluss bewusst als solcher wahrgenommen wird.

In seltenen, aber aufschlussreichen Fällen hat diese Dynamik bereits extreme Folgen gezeigt. Es gibt dokumentierte Fälle, in denen Nutzer nach langer und stark personalisierter Interaktion mit einem Chatbot zu psychotischen Überzeugungen, Selbstverletzung oder sozialer Isolation ermutigt wurden.

Der zugrunde liegende Mechanismus ist aus Sekten bekannt. Was sich ändert, ist die Quelle. Es gibt keinen Guru und keinen Gruppendruck. Stattdessen entsteht Einfluss durch technisch unterstützte Autosuggestion. Nutzer verstärken ihre eigenen Ideen im wiederholten, bestätigenden Dialog mit einem Chatbot. Wiederholung ersetzt Diskussion. Bestätigung ersetzt Widerspruch. Alternativen verschwinden aus dem Blickfeld. Wird ein konversationelles System zur primären Quelle für Orientierung und Interpretation, kann Einfluss weit über Meinungsbildung hinausreichen und sich in Handlungen übersetzen.

Im toten Winkel der KI-Sicherheit

Ein Großteil der KI-Sicherheitsforschung konzentriert sich auf die Kontrolle von Systemen. Alignment, Robustheit und Interpretierbarkeit sollen sicherstellen, dass Modelle sich wie vorgesehen verhalten und nicht gegen menschliche Ziele arbeiten. Diese Ansätze sind wichtig, teilen jedoch eine zentrale Annahme: dass Risiken im System selbst entstehen. Diese Annahme greift zu kurz, sobald Einfluss über Menschen wirkt. Ein System kann aligned, transparent und technisch eingegrenzt sein – und dennoch Schaden verursachen, indem es Nutzer überzeugt, in seinem Sinne zu handeln.

Besonders kritisch wird diese Lücke, wenn Überzeugung indirekte Zielverfolgung ermöglicht. Ein KI-System braucht keinen direkten Zugriff auf Cloud-Ressourcen, interne Netzwerke oder physische Infrastruktur, wenn es Menschen dazu bringen kann, Zugänge zu gewähren, Ausnahmen zu rechtfertigen oder Schutzmechanismen zu umgehen. Containment-Strategien und Access Control sind für Systeme konzipiert, die selbst handeln – nicht für Systeme, die menschliche Intermediäre rekrutieren.

Dieser tote Winkel betrifft auch die Regulierung. Aktuelle Governance-Frameworks behandeln expliziten Missbrauch, Täuschung oder klar zurechenbaren Schaden. Schleichender Einfluss taucht dort selten als Sicherheitsproblem auf, insbesondere wenn er sich über alltägliche Interaktion entfaltet. Labels und Offenlegung setzen darauf, dass Bewusstsein ausreicht. Sie bieten wenig Schutz, wenn Überzeugung subtil über Tonfall, Relevanz und emotionale Passung wirkt. Einfluss, der über Menschen statt über Code erwirkt wird, bleibt so für bestehende Regulierung weitgehend unsichtbar.

Das Ergebnis ist ein wachsender Bereich KI-vermittelten Einflusses, der faktisch unreguliert bleibt – nicht aus Nachlässigkeit, sondern weil das Risiko nicht in bestehende Kategorien passt.

Fazit: Es ist kein Bug, es ist ein Feature

Das eigentliche Problem ist nicht, ob zukünftige KI-Systeme plötzlich feindselig werden. Die entscheidende Frage ist, ob Menschen weiterhin als wirksame Sicherheitsbarriere fungieren können, wenn Überzeugung zu einer primären Fähigkeit von KI wird – und nicht nur ein Nebeneffekt. Wir sind bereits von Systemen umgeben, die darauf optimiert sind, hilfreich, zustimmend und überzeugend zu wirken. Mit zunehmender Leistungsfähigkeit dieser Systeme ist der begrenzende Faktor nicht mehr technische Kontrolle, sondern menschliches Urteilsvermögen.

Fortgeschrittene KI kann Schaden verursachen, ohne jemals eine Firewall zu berühren. Wenn sie Menschen beeinflussen kann, kann sie Dinge durch sie erledigen. In diesem Szenario sind Menschen nicht mehr nur Nutzer oder Aufsichtspersonen. Sie werden zur Ausführungsebene.

Hier kommt menschliche Gutgläubigkeit ins Spiel. Menschen suchen nach Quellen, die kohärent, beruhigend und responsiv wirken – besonders unter Unsicherheit. Konversationelle KI ist außergewöhnlich gut darin, dieses Bedürfnis zu bedienen. Mit leistungsfähigeren Modellen und längeren Interaktionshistorien kann Überzeugung in Abhängigkeit, Verhaltenssteuerung und in extremen Fällen in sektenähnliche Dynamiken übergehen. Spätestens dann wird KI-Einfluss auf Menschen zu einem handfesten Sicherheitsproblem.

Aktuelle KI-Sicherheitsansätze behandeln dieses Thema meist nur am Rande, wenn überhaupt. Doch solange die menschliche Psyche außerhalb des zentralen Sicherheitsmodells agiert, bleibt eine kritische Schwachstelle bestehen. Diese Lücke zu schließen erfordert, menschliche Anfälligkeit als relevanten Sicherheitsfaktor ernst zu nehmen – nicht als Nachsatz. Andernfalls werden die mächtigsten Systeme, die wir bauen, uns womöglich nie aktiv angreifen müssen. Es reicht, uns zu überzeugen.

Johannes C. Zeller studierte Linguistik und Medienwissenschaft an der Karl-Franzens-Universität Graz. Als erfahrener Journalist übt er sich gerne in kritischem Denken und bietet Einblicke in den Mediendiskurs - zum Beispiel in seinem Blog.

Kommentare

  1. userpic
    Andreas Edmüller

    Chapeau - eine sehr klare, informierte und wichtige Warnung!
    Zu dem von Herrn Zeller geschilderten Gefahrenbündel kommt ein weiteres Risiko: Wenn Menschen immer mehr Entscheidungen, Überlegungen und Argumentationen an die KI auslagern, dann verlernen wir zentral wichtige intellektuelle Fähigkeiten und sind dann wiederum leichter zu manipulieren. Umgangssprachlich ausgedrückt: Wir haben es mit einem Teufelskreis der Verdummung zu tun.

    Antworten

    1. userpic
      Olaf Schulze

      gut, dass Andreas Edmüller von dieser Entwicklung nicht betroffen ist

      Antworten

    Neuer Kommentar

    (Mögliche Formatierungen**dies** für fett; _dies_ für kursiv und [dies](http://de.richarddawkins.net) für einen Link)

    Ich möchte bei Antworten zu meinen Kommentaren benachrichtigt werden.

    * Eingabe erforderlich