Herr Kleemann, was sind Deep Fakes?
Aldo Kleemann: Deep Fakes sind täuschend echt wirkende, jedoch künstlich erstellte oder veränderte Foto-, Video- oder Sprachaufzeichnungen. Dabei kann es sich um einzelne Bilder von realen oder gänzlich neu erschaffenen Personen handeln. Stimmen können imitiert oder neu erschaffen werden. Es können aber auch vorhandene Reden abgeändert und den Sprecherinnen und Sprechern Worte lippensynchron in den Mund gelegt werden.
Der Begriff Deep Fake leitet sich aus dem Erstellungsprozess ab. In einem „Generative Adversarial Network“ (GAN) werden zwei neuronale Netzwerke kombiniert und anhand vorhandener Bild-, Video- oder Sprachaufzeichnungen trainiert. Das anschließende „deep learning“ der neuronalen Netze ist so tiefgehend und die Ergebnisse sind so realistisch, dass der heute umgangssprachliche Begriff Deep Fake auf diesen Prozess zurückgeht.
Aldo Kleemann ist Oberstleutnant i.G. Er studierte von 2008 bis 2012 Politikwissenschaften mit dem Schwerpunkt auf internationalen Beziehungen an der Universität der Bundeswehr in Hamburg. Seit 2022 ist er als militärischer Berater und Gastwissenschaftler in der SWP tätig. In der Ausgabe SWP-Aktuell Nr. 43 der Stiftung Wissenschaft und Politik (SWP) finden Sie seinen Beitrag „Deepfakes – Wenn wir unseren Augen und Ohren nicht mehr trauen können“.
Wie können Deep Fakes erstellt werden?
Kleemann: ImGAN findet ein Wechselspiel zwischen zwei Komponenten statt. Während der gestaltende Teil (Generator) fiktive Bilder oder Stimmen erzeugt, übernimmt der andere Teil (Diskriminator) deren Bewertung hinsichtlich der Echtheit des gegebenen Trainingsdatensatzes. Ziel ist es, dass der Generator Medien produziert, die möglichst nicht vom Trainingsdatensatz zu unterscheiden sind. Man kann ein solchesGAN also ganz allgemein auf die Erstellung von beispielsweise Porträtfotos anlernen oder aber für ein bestimmtes Gesicht oder eine bestimmte Stimme trainieren.
Kann jede und jeder Deep Fakes erstellen?
Kleemann: Ja das kann jede und jeder, für einfache Täuschungen reichen handelsübliche Apps. Benutzerinnen und Benutzer brauchen keine Vor- oder gar Programmierkenntnisse. Sofern man mit dem Deep Fake eine bestimmte Person imitieren will, braucht es entsprechende Trainingsdaten für die App. Man braucht also Bilder und/oder Audiodateien der jeweiligen Person. Will man sich aber nur ein Foto erschaffen, möglicherweise, um einen falschen Account in Sozialen Medien anzulegen, könnte man einen Text-Bild-Generator nutzen. Für deren Nutzung braucht es nur die Beschreibung des Bildes.
Woran können Deep Fakes erkannt werden? Geht das überhaupt?
Kleemann: Viele ältere Deep Fakes weisen typische Bildfehler oder blecherne Stimmen auf. Auch aktuelle Deepfakes sind nicht immer perfekt. Beispielsweise betrifft das bei den Text-Bild-Generatoren häufig die Darstellung der Hände, die Zahl und Form der Finger passt dort regelmäßig nicht. Dies ist jedoch nur eine Momentaufnahme, die Technologie entwickelt sich rasend schnell weiter und daher können wir nicht davon ausgehen, dass wir Deep Fakes auch in der nahen Zukunft noch mit dem bloßen Auge erkennen können.
Hinzu kommen die unzähligen Variationsmöglichkeiten beim Einsatz von Deep Fakes, also was genau verändert wurde, welche Sie für ein derartiges „Erkennen“ im Blick haben müssen. Mitunter ist es nur der Gesichtsausdruck einer Person, welchen sie leicht verändern müssen, etwa ein Lächeln im unpassenden Moment. Möglicherweise wurde eine ganze Rede erschaffen oder aber nur einzelne Aussagen verändert, manchmal reicht es einzelne Worte zu entfernen oder hinzuzufügen. Darüber hinaus ist relevant auf welchem Medium die Zielgruppe den Deep Fake betrachtet: Ein hochauflösendes Display? Boxen in Tonstudioqualität, die kleinste Unstimmigkeiten in der Stimme hörbar machen? Oder wird der Fake auf einem Handy betrachtet? Möglicherweise wurde der Deep Fake gar zunächst auf einem Fernseher gezeigt, mit einem Handy abgefilmt und dann verbreitet. Auch ein Faktor ist, wie viel Zeit die Zielgruppe zur Betrachtung hat. Die Möglichkeiten sind grenzenlos, von daher sollten wir nicht davon ausgehen, dass wir Deep Fakes heute und in Zukunft allein mit unseren Augen und Ohren problemlos erkennen können.
Wozu werden Deep Fakes produziert?
Kleemann: Deep Fakes lassen sich schnell, kostengünstig, massenhaft und sehr einfach erstellen. Mit Deep Fakes können zum Narrativ schnell und einfach passende Ton-, Bild- und Videoaufzeichnungen erstellt werden. Die menschliche Neigung, emotional auf diese Medien zu reagieren, eröffnet deren Produzentinnen und Produzenten eine völlig neue Dimension des Missbrauchs. Zu den allgemeinen missbräuchlichen Anwendungen zählen daher Betrug, Diffamierung, Erpressung und eben Desinformation.
Welchen Zusammenhang gibt es zwischen Deep Fakes und Desinformation?
Kleemann: Täuschung und Medienmanipulation sind an sich keine neuen Phänomene. Deep Fakes verändern Desinformationskampagnen allerdings in drei wesentliche Faktoren:
- Quantität – marktverfügbare Apps ermöglichen eine massenhafte, schnelle und kostengünstige Anfertigung von Deep Fakes. Das erlaubt es neben Staaten auch ressourcenarmen Gruppierungen und Individuen, eigene Desinformationskampagnen im großen Maßstab durchzuführen.
- Qualität – Deep Fakes werden qualitativ immer besser und wirken natürlicher, wodurch sie schwerer zu erkennen sind und an Glaubwürdigkeit und Überzeugungskraft gewinnen.
- Qualifikation – Während die Erstellung von Deep Fakes nahezu keinerlei Qualifikation voraussetzt, wird die zu ihrer Erkennung erforderliche Expertise immer umfangreicher.
Diese Entwicklungen haben das Potential, die Reichweite und Wirksamkeit von Desinformation im 21. Jahrhundert signifikant zu erhöhen.
Gibt es Möglichkeiten, Deep Fakes zu begrenzen? Stichwort: Regulierung und Kennzeichnung von KI?
Kleemann: Ein „silver bullet“ also eine universell wirksame Wunderwaffe wird es nicht geben. Ein Verbot ist abwegig, denn die dahinterstehende Technologie ist ein klassischer Fall einer Dual-Use Technologie. Sie lässt sich in der Medizin, zur Medikamentenentwicklung oder zur Verbesserung der Bildauswertung anwenden oder in der Bildung um beispielsweise Geschichte erlebbarer zu machen.
Wir werden daher lernen müssen, mit Deep Fakes zu leben und können deren negative Wirkung nur bedingt begrenzen. Dazu bedarf es einer Mischung von präventiven und reaktiven Ansätzen: Eindämmen – Erkennen – Reagieren ist hier der Dreiklang. Dazu zählen eine softwareseitige Kennzeichnungspflicht für Deep Fakes, die Stärkung vertrauenswürdiger Inhalte durch das Hinzufügen fälschungssicherer Verlaufs- und Identitätsinformationen zu digitalen Daten, die Stärkung von Medienkompetenz und die Entwicklung eigener Aufklärungsansätze unter Verwendung von KI.
Umgang bedeutet aber auch, dass wir uns auf Deep Fakes einstellen und Mittel und Wege finden, deren Wirkung zu begrenzen: hierzu gehört ein Mediamonitoring sowie die kontinuierliche Beschäftigung mit Deep Fakes, um zu verstehen, wie sie in Desinformationskampagnen eingebunden werden. Es braucht den Austausch national und mit unseren internationalen Partnerinnen und Partnern. Und schlussendlich müssen wir Reaktionsstrategien vorhalten, die vor allem auf Schnelligkeit ausgerichtet sind. Denn in einer Zeit, in der die Verbreitung von Informationen nicht mehr in Tagen, sondern in Minuten gemessen wird, bedarf es der Fähigkeit zur raschen Erkennung und schnellen Antwort auf einen Deep Fake.
Schauen wir mal in die Zukunft: In welche Richtung entwickeln sich Deep Fakes?
Kleemann: Deep Fakes werden kontinuierlich besser und wir werden ohne Hilfsmittel immer weniger in der Lage sein, zwischen Realität und Fälschung zu unterscheiden.
Dieses Interview wurde schriftlich geführt.
Künstliche Intelligenz kann Fotos und Videos von Szenen erzeugen, die so gar nicht stattgefunden haben. Wie soll man da noch durchblicken? In dem Beitrag „
Deepfakes erkennen“ von fluter Magazin sind Tipps für den Echtheits-Check zu finden.
Informationen zu Nachrichten im digitalen Zeitalter finden sich auch im Handbuch „
Fake News, Framing, Fact Checking“ der Bundeszentrale für politische Bildung.