KI-Telefonie boomt — aber wo bleiben die Daten?

KI-Telefonassistenten erleben einen beispiellosen Boom. Laut einer Erhebung des Bitkom e.V. aus dem Januar 2026 setzen bereits mehr als 120.000 deutsche Unternehmen in irgendeiner Form Sprachassistenten ein — vom einfachen IVR-System bis hin zum vollautomatisierten VoiceBot, der Kundenanfragen eigenständig bearbeitet. Branchen wie Gesundheitswesen, Versicherungen, Handwerk und E-Commerce treiben die Nachfrage.

Doch hinter dem Boom verbirgt sich ein Problem, über das kaum jemand spricht: Sämtliche VoiceBot-Anbieter am deutschen Markt nutzen US-amerikanische Sprachtechnologie. Ohne Ausnahme. Ob Deepgram, OpenAI Whisper, Google Cloud Speech, Azure Cognitive Services oder ElevenLabs — die Spracherkennung (STT) und Sprachsynthese (TTS), die Ihre Kundengespräche verarbeiten, stammt von US-Unternehmen.

Das betrifft nicht nur kleine Startups. Auch die großen europäischen Anbieter wie Parloa, Cognigy oder TENIOS setzen unter der Haube auf dieselben US-Dienste. Der Grund ist einfach: Es gibt Stand März 2026 keinen einzigen europäischen Anbieter, der eine vollständige Echtzeit-VoiceBot-Pipeline (Spracherkennung, Sprachverarbeitung, Sprachsynthese) mit der nötigen Latenz liefern kann. Das ist kein Vorwurf — es ist eine technische Realität.

Für Unternehmen, die Wert auf DSGVO-Konformität legen, stellt sich damit eine unbequeme Frage: Kann ich KI-Telefonie überhaupt datenschutzkonform einsetzen, wenn die gesamte Sprachtechnologie aus den USA kommt? Dieser Artikel gibt eine ehrliche Antwort — ohne Schönfärberei und ohne falsche Versprechen. Denn wir glauben, dass Transparenz der einzige Weg ist, Vertrauen aufzubauen.

Das Dilemma: Europäische Sprachtechnologie ist noch nicht marktreif

Es gibt durchaus europäische Unternehmen, die an Sprachtechnologie arbeiten. Das bekannteste Beispiel ist Mistral AI aus Paris, das mit Voxtral im März 2026 ein multimodales Sprachmodell veröffentlicht hat, das sowohl Sprachverständnis als auch Text-to-Speech beherrscht. Auf dem Papier klingt das wie die Lösung aller DSGVO-Probleme: ein europäisches Unternehmen, europäische Server, kein US CLOUD Act.

In der Praxis scheitert es jedoch an einem entscheidenden Faktor: Latenz. Für ein natürliches Telefongespräch muss die gesamte Pipeline — Sprache erkennen, verstehen, Antwort generieren, aussprechen — in unter 300 Millisekunden ablaufen. Alles darüber führt zu spürbaren Pausen, die das Gespräch unnatürlich und frustrierend machen. Forschungsergebnisse zur Gesprächsdynamik zeigen, dass Pausen ab 400ms als störend empfunden werden.

Voxtral erreicht in der Batch-API aktuell eine Latenz von rund 870 Millisekunden allein für die Sprachsynthese — fast das Dreifache des Maximalwerts für Echtzeittelefonie. Für Transkription, Übersetzung oder Zusammenfassungen ist das hervorragend. Für einen VoiceBot, der flüssig telefonieren soll, reicht es nicht. Ähnlich sieht es bei anderen europäischen Projekten aus: Coqui TTS (Open Source, Berlin) liefert gute Qualität, aber nicht die Geschwindigkeit für Echtzeit-Streaming.

Die ehrliche Bestandsaufnahme lautet daher: Eine rein europäische End-to-End-VoiceBot-Lösung, die in Echtzeit funktioniert, existiert heute nicht. Wer das Gegenteil behauptet, verschweigt entweder die technischen Limitierungen oder nutzt im Hintergrund doch US-Dienste. Wir halten es für besser, diese Realität offen zu benennen — und zu erklären, was wir stattdessen tun.

Was Nexoria anders macht: Mistral statt OpenAI

Wenn eine vollständig europäische VoiceBot-Lösung heute nicht möglich ist, stellt sich die Frage: Wie nah kann man an dieses Ziel herankommen? Bei Nexoria haben wir uns für den Ansatz entschieden, der den größtmöglichen Anteil der Verarbeitungskette in Europa belässt — und bei den verbleibenden Komponenten den datenschutzfreundlichsten Weg wählt.

Der wichtigste Unterschied zu nahezu allen Wettbewerbern: Nexoria verwendet Mistral als Large Language Model (LLM) — nicht OpenAI, nicht Anthropic, nicht Google. Mistral AI ist ein französisches Unternehmen mit Sitz in Paris. Es unterliegt ausschließlich europäischem Recht und nicht dem US CLOUD Act (18 U.S.C. § 2713). Das LLM ist das Herzstück jedes VoiceBots — es versteht die Frage des Anrufers, durchsucht die Wissensbasis und formuliert die Antwort. Dass dieser zentrale Verarbeitungsschritt in Europa stattfindet, ist ein substanzieller Unterschied.

Für die Telefonie-Infrastruktur — also die Spracherkennung (STT) und Sprachsynthese (TTS) in Echtzeit — arbeiten wir mit einem Telekom-Partner, der ein eigenes Rechenzentrum in Frankfurt am Main betreibt. Sämtliche Sprachverarbeitung für unsere deutschen Kunden findet physisch auf diesen Frankfurter Servern statt. Die Audiodaten verlassen Deutschland nicht. Zusätzlich ist ein Auftragsverarbeitungsvertrag (AVV) nach Art. 28 DSGVO geschlossen. Den konkreten Dienstleister nennen wir in unserer Datenschutzerklärung und im Verarbeitungsverzeichnis.

Damit ergibt sich folgende Architektur: LLM in Europa (Mistral, Frankreich), Sprachverarbeitung in Deutschland (Frankfurt), Wissensbasis auf dedizierten Servern in deutschen Rechenzentren. Das ist nicht perfekt — der Telefonie-Partner bleibt ein US-Unternehmen und unterliegt theoretisch dem CLOUD Act. Aber es ist die datenschutzfreundlichste Architektur, die heute technisch möglich ist.

Reine Opt-In-Lösung: Isoliert von Ihrer Plattform

Ein Punkt, der uns besonders wichtig ist: Der Nexoria VoiceBot wird niemals automatisch aktiviert. Er ist ein eigenständiges Zusatzprodukt, das Sie bewusst und separat buchen. Kein Unternehmen, das die Nexoria-Plattform nutzt, hat plötzlich einen VoiceBot laufen, ohne dies aktiv entschieden zu haben. Das ist ein fundamentaler Designgrundsatz — keine nachträgliche Datenschutzmaßnahme.

Noch wichtiger ist die technische Isolation. Die KI hinter dem VoiceBot sieht ausschließlich die Wissensbasis, die Sie dem jeweiligen VoiceBot explizit zuweisen. Sie hat keinen Zugriff auf:

Ihre E-Mails und Kommunikation
Ihre Aufgaben und Projekte
Ihre Dokumente in der Plattform
Ihre Kalendereinträge
Ihre Kundendaten im CRM
Andere VoiceBots oder Chatbots Ihres Tenants

Der VoiceBot operiert in einer eigenen, abgeschotteten Umgebung. Er kennt nur das, was Sie ihm geben — und nichts darüber hinaus. Diese Isolation ist nicht nur eine organisatorische, sondern eine technische Grenze: Die VoiceBot-Wissensbasis ist eine separate Vektor-Collection mit eigener Tenant-Isolation, die von der Haupt-Wissensbasis der Plattform vollständig getrennt ist.

Für Ihr Kernprodukt — den Nexoria KI-Assistenten, die Wissensbasis, DocStudio, Aufgaben und Kalender — ändert sich durch den VoiceBot nichts. Diese Komponenten laufen bereits heute vollständig auf dedizierten Servern in deutschen Rechenzentren mit europäischer KI (Mistral). Hier gibt es keine US-Beteiligung, keinen CLOUD Act, keine Drittlandübermittlung. Die Kernplattform ist und bleibt zu 100 % DSGVO-konform — unabhängig davon, ob Sie den VoiceBot nutzen oder nicht.

DSGVO-Consent per Tastendruck: So funktioniert es

Wenn ein Anrufer den VoiceBot erreicht, greift ein mehrstufiges Einwilligungsverfahren, das auf dem DTMF-Consent-Verfahren basiert (Dual-Tone Multi-Frequency — die Tonsignale beim Drücken einer Telefontaste). Dieses Verfahren erfüllt die Anforderungen des Art. 6 Abs. 1 lit. a in Verbindung mit Art. 7 DSGVO sowie die EDPB Guidelines 05/2020 on Consent (Rn. 77-82).

Der Ablauf im Detail:

Der Anrufer hört zu Beginn: „Dieses Gespräch wird von einer künstlichen Intelligenz geführt. Möchten Sie, dass das Gespräch zum Zweck der Qualitätssicherung aufgezeichnet wird? Drücken Sie die 1 für Ja oder die 2 für Nein.“
Der Tastendruck wird als aktive, unmissverständliche Handlung gewertet und erfüllt damit das Erfordernis einer eindeutigen bestätigenden Handlung nach Art. 7 DSGVO
Bei „Nein“ (Taste 2) wird das Gespräch trotzdem geführt — aber ohne jegliche Aufzeichnung oder Transkription
Reagiert der Anrufer gar nicht, gilt der Zustand als „nicht entschieden“ — auch dann wird nicht aufgezeichnet

Technisch setzen wir ein 3-State-Consent-Modell ein:

NULL — Keine Entscheidung getroffen (Default: keine Aufzeichnung)
false — Explizit abgelehnt (keine Aufzeichnung, Entscheidung wird respektiert und dokumentiert)
true — Explizit zugestimmt (Transkription startet, Einwilligung wird mit Zeitstempel, Sitzungs-ID und SHA256-Hash der Anrufernummer revisionssicher protokolliert)

Dieses Modell unterscheidet sich grundlegend vom „Opt-Out“-Ansatz vieler Anbieter, bei dem die Aufzeichnung standardmäßig läuft und der Anrufer aktiv widersprechen muss. Der EDPB hat wiederholt klargestellt, dass voreingestellte Zustimmungen keine gültige Einwilligung darstellen (EDPB Guidelines 05/2020, Rn. 81). Unser Ansatz stellt sicher, dass ohne aktives Einverständnis niemals personenbezogene Gesprächsdaten gespeichert werden. Die Einwilligung ist jederzeit widerrufbar (Art. 7 Abs. 3 DSGVO) — auch während des laufenden Gesprächs.

EU AI Act: Transparenzpflicht für VoiceBots

Seit dem 2. Februar 2025 gelten die ersten Bestimmungen der EU-Verordnung über künstliche Intelligenz (Verordnung (EU) 2024/1689), besser bekannt als EU AI Act. Für VoiceBots ist Art. 52 Abs. 1 zentral: KI-Systeme, die direkt mit natürlichen Personen interagieren, müssen so gestaltet sein, dass die betroffene Person darüber informiert wird, dass sie mit einem KI-System interagiert. Der Gesetzgeber geht davon aus, dass Menschen ihr Kommunikationsverhalten ändern, wenn sie wissen, dass ihr Gegenüber eine Maschine ist.

Bei Nexoria setzen wir diese Pflicht wie folgt um:

Sofortige Offenlegung: Noch bevor das eigentliche Gespräch beginnt, hört der Anrufer unmissverständlich, dass er mit einer KI spricht — nicht versteckt am Ende einer langen Ansage, sondern als erstes Statement
Klare Sprache: Die Formulierung ist einfach und verständlich: „Sie sprechen mit einem KI-Telefonassistenten.“ Kein Juristendeutsch, kein Kleingedrucktes
Kein Umgehen: Die Ansage ist technisch fest im IVR-Flow verankert und kann vom Unternehmen, das den VoiceBot einsetzt, nicht deaktiviert oder übersprungen werden
Weiterleitung an Menschen: Der Anrufer hat jederzeit die Möglichkeit, zu einem menschlichen Mitarbeiter weitergeleitet zu werden (sofern vom Unternehmen konfiguriert)

Verstöße gegen Art. 52 können mit Geldbußen von bis zu 15 Millionen Euro oder 3 % des weltweiten Jahresumsatzes geahndet werden (Art. 99 Abs. 4 EU AI Act). Da moderne VoiceBots mit hochwertiger Sprachsynthese immer natürlicher klingen, wird die Kennzeichnungspflicht in Zukunft eher strenger als lockerer ausgelegt werden. Eine Ausnahme sieht Art. 52 Abs. 1 Unterabs. 2 für „offensichtlich“ erkennbare KI-Systeme vor — diese greift bei modernen VoiceBots allerdings nicht, da sie gerade darauf ausgelegt sind, natürlich zu klingen.

Wir sehen die Transparenzpflicht nicht als Belastung, sondern als Qualitätsmerkmal. Kunden, die wissen, dass sie mit einer KI sprechen, formulieren präziser, haben realistischere Erwartungen und bewerten das Ergebnis fairer.

Aufbewahrungsfristen und automatische Löschung

Art. 5 Abs. 1 lit. e DSGVO formuliert den Grundsatz der Speicherbegrenzung: Personenbezogene Daten dürfen nur so lange gespeichert werden, wie es für den Verarbeitungszweck erforderlich ist. Für VoiceBot-Daten haben wir klare, automatisiert durchgesetzte Fristen definiert.

Unsere Aufbewahrungsrichtlinie:

Audio-Rohdaten: Werden niemals dauerhaft gespeichert. Die Sprachverarbeitung erfolgt als Echtzeit-Stream — Audio wird in Text umgewandelt und das Audiosignal sofort verworfen. Es existiert zu keinem Zeitpunkt eine Audiodatei des Gesprächs auf unseren Servern.
Transkripte (nur mit Consent): Maximal 90 Tage Aufbewahrung. Wurde keine Einwilligung erteilt, wird kein Transkript erstellt. Nach Ablauf der 90 Tage erfolgt die Löschung automatisch und unwiderruflich.
Anrufernummern: Nach 90 Tagen automatische Trunkierung auf den Vorwahlbereich (z.B. +49 228 statt +49 228 1234567). So bleiben anonymisierte statistische Auswertungen möglich, ohne dass eine Identifizierung des Anrufers möglich ist. Diese Maßnahme entspricht dem Prinzip der Datenminimierung nach Art. 5 Abs. 1 lit. c DSGVO.
Consent-Protokolle: Werden mindestens so lange aufbewahrt wie die zugehörigen Gesprächsdaten, zuzüglich einer Frist von 3 Jahren für mögliche Beschwerden (§ 195 BGB Verjährungsfrist). So kann die Einwilligung im Streitfall nachgewiesen werden (Art. 7 Abs. 1 DSGVO).

Die Löschung erfolgt vollständig automatisiert durch einen täglichen Hintergrundprozess (Cronjob), der abgelaufene Datensätze identifiziert und unwiderruflich entfernt. Es gibt keine manuelle Komponente, die vergessen oder umgangen werden könnte. Der Löschmechanismus ist in unserem Verarbeitungsverzeichnis nach Art. 30 DSGVO dokumentiert und wird regelmäßig auditiert.

Mehrere Datenschutzaufsichtsbehörden, darunter das BayLDA (Bayerisches Landesamt für Datenschutzaufsicht), haben in Stellungnahmen bestätigt, dass eine 90-Tage-Frist für Gesprächsdaten als angemessener Kompromiss zwischen operativer Notwendigkeit und Datensparsamkeit gilt.

Unsere Zusage: Vollständig europäisch, sobald möglich

Wir wollen in diesem Artikel nichts beschönigen. Der Nexoria VoiceBot nutzt für Telefonie und Sprachverarbeitung einen US-Telekom-Partner mit EU-Infrastruktur. Das ist nicht unser Endzustand — das ist der bestmögliche Zustand, den die Technik heute erlaubt. Wir geben eine klare Zusage: Sobald eine vollständig europäische VoiceBot-Lösung existiert, die Echtzeittelefonie mit akzeptabler Latenz ermöglicht, werden wir migrieren.

Konkret beobachten wir folgende Entwicklungen:

Mistral Voxtral: Bereits heute ein hervorragendes europäisches Sprachmodell. Sobald die Echtzeit-Latenz für Streaming-TTS unter 300ms fällt, wird es unser primärer Kandidat für die gesamte Pipeline.
EU-Förderprojekte: Die Europäische Kommission investiert im Rahmen von Horizon Europe und dem Digital Europe Programme gezielt in europäische Sprachtechnologie. Erste Ergebnisse werden ab 2027 erwartet.
Open-Source TTS: Projekte wie Coqui TTS und Piper machen Fortschritte bei Qualität und Geschwindigkeit. Sobald sie produktionsreif für Echtzeittelefonie sind, werden sie integriert.

Was bereits heute vollständig europäisch ist: Unsere Chatbots. Der Nexoria Chatbot läuft zu 100 % auf deutschen Servern, nutzt Mistral als LLM und hat keinerlei US-Beteiligung. Keine Drittlandübermittlung, kein CLOUD Act, keine Kompromisse. Für Unternehmen, die eine sofort verfügbare, vollständig DSGVO-konforme KI-Lösung suchen, ist der Chatbot die richtige Wahl.

Wenn die Migration des VoiceBots auf eine rein europäische Infrastruktur stattfindet, werden alle Kunden rechtzeitig informiert. Die Umstellung wird nahtlos erfolgen — ohne Ausfallzeiten und ohne Änderungen an Ihrer Konfiguration. Bis dahin setzen wir auf maximale Transparenz: Sie wissen genau, welche Komponenten wo verarbeitet werden, und können eine informierte Entscheidung treffen.

Quellen: DSGVO Art. 5, 6, 7, 28, 44-49 (Verordnung (EU) 2016/679). EU AI Act Art. 52, 99 (Verordnung (EU) 2024/1689). BfDI Orientierungshilfe Sprachassistenten (2025). EDPB Guidelines 05/2020 on Consent under Regulation 2016/679. US CLOUD Act (18 U.S.C. § 2713).

Erfahren Sie mehr über den Nexoria VoiceBot und seine Datenschutzarchitektur. Oder kontaktieren Sie uns direkt — wir beantworten Ihre Fragen zu DSGVO, Datenhaltung und Migrationsplänen persönlich.

VoiceBot und Datenschutz: KI-Telefonie DSGVO-konform umsetzen