TL;DR:

Künstlich erzeugte Stimmen und Videos – sogenannte Deepfakes – eröffnen Cyberkriminellen völlig neue Möglichkeiten. Besonders gefährlich: Sie wirken glaubwürdig, emotional und lassen sich in Echtzeit einsetzen. In diesem Blogbeitrag zeigen wir, wie Angreifer Deepfakes mit Social Engineering kombinieren, welche technischen Mechanismen dahinterstecken und wie sich Organisationen schützen können.
Die zunehmende Qualität und Verfügbarkeit generativer KI hat Social-Engineering-Angriffe in eine neue Dimension gehoben. Wo früher schlecht geschriebene E-Mails mit verdächtigen Links dominierten, kommen heute täuschend echte Audio- und Video-Fälschungen zum Einsatz – sogenannte Deepfakes. Diese nutzen neuronale Netze, um Sprache, Mimik und Körpersprache realer Personen künstlich zu erzeugen – und zwar mit einer Qualität, die auch für Fachleute kaum noch erkennbar ist.
Von GPT zu Vishing: So funktioniert der KI-basierte Identitätsbetrug

Ein besonders gefährlicher Trend ist die Kombination aus Voice Cloning und Vishing (Voice Phishing). Dabei verwenden Angreifer öffentlich verfügbare Tonaufnahmen – etwa aus Podcasts, Webinaren oder Social-Media-Videos –, um ein Sprachprofil einer Zielperson zu erstellen. Mit Hilfe spezialisierter Modelle wie Respeecher, ElevenLabs oder iSpeech werden realistische Sprachsynthesen erzeugt. In Kombination mit einem generativen Sprachmodell (z. B. GPT-4, Gemini oder Claude) können die Angreifer in Echtzeit auf Gesprächssituationen reagieren – in der Stimme der imitieren Person.
Ein Fall aus Großbritannien verdeutlicht das Risiko: 2024 verlor ein international tätiges Unternehmen über 25 Millionen Pfund, nachdem ein Mitarbeiter durch einen Vishing-Deepfake überzeugt wurde, einer angeblich dringenden Kapitalüberweisung seines Vorgesetzten zuzustimmen. Die Stimme des „Chefs“ wurde dabei per Voice Clone erzeugt – basierend auf öffentlich zugänglichem Material.
Visuelle Deepfakes: Realitätsnahe Täuschung per Video
Noch beunruhigender sind visuelle Deepfakes, bei denen das Gesicht einer realen Person in ein bestehendes Video eingebettet oder vollständig generiert wird. Hier kommen Generative Adversarial Networks (GANs) zum Einsatz – neuronale Netzwerke, die sich gegenseitig trainieren: Ein Generator erstellt Bilder, ein Diskriminator bewertet deren Echtheit. Dadurch entstehen hyperrealistische Videos, in denen Lippenbewegung und Mimik mit synthetischer Sprache synchronisiert werden.
Mit Tools wie DeepFaceLab, FaceSwap oder kommerziellen Lösungen wie Synthesia können Angreifer Videos von Führungskräften, IT-Administratoren oder anderen Vertrauenspersonen erstellen, die scheinbar in Echtzeit über Zoom, Teams oder Google Meet Anweisungen geben. In kompromittierten Meetings oder Video-Mails können solche Inhalte gravierende Auswirkungen haben – insbesondere, wenn sie in stressigen oder autoritär geführten Arbeitsumgebungen auf Entscheidungsträger treffen.
Psychologische Hebel + technische Perfektion = Explosive Wirkung
Was diese Angriffe so gefährlich macht, ist nicht nur die technische Raffinesse, sondern die psychologische Wirkung. Deepfakes verstärken die Wirkung klassischer Autoritätsheuristiken im menschlichen Entscheidungsverhalten: Wenn der visuelle und auditive Eindruck stark genug ist, hinterfragen viele Menschen nicht mehr kritisch, ob sie es wirklich mit der richtigen Person zu tun haben. Der Angriff erfolgt nicht auf das System – sondern auf die Wahrnehmung.
Zudem zeigen Studien des MIT Media Lab (2024), dass Menschen selbst nach dem Aufdecken eines Deepfakes oft weiter dazu neigen, dem Inhalt zu glauben. Der sogenannte „Truth Bias“ wirkt sogar dann, wenn technische Hinweise auf Fälschung sichtbar gemacht werden – etwa durch Wasserzeichen oder Metadatenanalyse.
Warum klassische Sicherheitsmechanismen versagen
Klassische Methoden zur Angriffserkennung – wie E-Mail-Filter, Signaturprüfung oder Zwei-Faktor-Authentifizierung – greifen bei Deepfakes oft zu kurz. Die Interaktion geschieht in einem Medium, das als authentisch gilt: Sprache, Video oder Face-to-Face-Chat. Selbst wenn Mitarbeiter geschult sind, verdächtige E-Mails zu erkennen, fehlen ihnen oft die Werkzeuge und das Bewusstsein, um Deepfakes zu identifizieren.
Biometrische Zugangskontrollen, die auf Stimme oder Gesicht setzen, sind besonders gefährdet. Angriffe auf solche Systeme mit synthetischen Merkmalen – sogenannte Presentation Attacks – zeigen bereits heute hohe Erfolgsraten. Einige Anbieter wie Microsoft oder Amazon integrieren daher vermehrt Liveness Detection und Anti-Spoofing-Mechanismen, z. B. durch Erkennung von Mikroausdrücken oder minimalen Pupillenbewegungen. Doch auch diese Methoden können künftig durch generative KI unterlaufen werden.
Handlungsempfehlungen: Sensibilisierung, Technik und Policy
Um dieser neuen Form von Social Engineering zu begegnen, braucht es einen mehrschichtigen Schutzansatz:
- Awareness-Trainings 2.0: Mitarbeitende müssen gezielt über Deepfakes informiert und sensibilisiert werden – inklusive realitätsnaher Simulationen.
- Multikanalverifizierung: Kritische Anweisungen (z. B. Überweisungen, Systemänderungen) sollten stets über mehrere unabhängige Kommunikationskanäle verifiziert werden.
- KI-basierte Erkennung: Unternehmen sollten in Tools zur Deepfake-Erkennung investieren, etwa durch Analyse von Bildrauschen, Lippensynchronität, Frequenzspektren oder Metadatenmanipulation.
- Regulatorische Leitlinien: Interne Richtlinien müssen erweitert werden, um mit neuen Angriffsszenarien Schritt zu halten – etwa durch verpflichtende Echtheitsverifikation bei Videoanrufen mit hochrangigen Personen.
