Kaum ein Thema wird gerade so beworben wie der KI-Telefonassistent: ein System, das ans Telefon geht, mit dem Anrufer spricht und Termine bucht, während Ihr Team in Ruhe arbeitet. Die Demos sind beeindruckend – und die Erwartungen entsprechend hoch. In diesem Artikel trenne ich das Marketing von der Technik: wie so ein Assistent tatsächlich funktioniert, welche Anrufe er zuverlässig übernimmt, wo seine Grenzen liegen, und welche rechtlichen Pflichten ab dem 2. August 2026 verbindlich werden. Geschrieben für Geschäftsführer, die vor der Entscheidung stehen, ob sich das für ihren Betrieb lohnt.
Wie ein KI-Telefonassistent technisch funktioniert
Hinter der freundlichen Stimme steckt fast immer dieselbe Kette aus drei Bausteinen: Speech-to-Text (STT) wandelt das Gesagte in Text um, ein Large Language Model (LLM) versteht den Text und entscheidet, was zu antworten ist, und Text-to-Speech (TTS) erzeugt daraus wieder hörbare Sprache. Diese Schleife läuft bei jedem Wortwechsel neu durch.
Der entscheidende Faktor für ein natürliches Gespräch ist die Latenz – also wie schnell die Antwort kommt. Wird die Kette sequenziell abgearbeitet, landet man laut technischen Analysen bei Antwortzeiten von 2 bis 4 Sekunden, was sich am Telefon zäh anfühlt. Produktionsreife Systeme arbeiten deshalb im Streaming: Die Spracherkennung liefert Teil-Transkripte im Takt von etwa 50 Millisekunden, das LLM beginnt zu antworten, bevor der Satz fertig analysiert ist, und die Sprachausgabe spielt erste Audio-Schnipsel ab, während der Rest noch generiert wird. Ziel ist eine Gesamt-Reaktionszeit unter rund 700 Millisekunden – ab dort wirkt ein Gespräch menschlich.
Zwei Details entscheiden über Demo oder Alltagstauglichkeit. Erstens das Erkennen des Sprecherwechsels (Endpointing): Wann hat der Anrufer ausgeredet, und wann macht er nur eine Denkpause? Gute Systeme nutzen dafür ein eigenes kleines Modell statt einer starren Stille-Schwelle. Zweitens das Unterbrechen (Barge-in): Fällt der Anrufer dem Assistenten ins Wort, muss die Sprachausgabe binnen Sekundenbruchteilen stoppen und neu zuhören. Wer beides nicht beherrscht, baut einen Assistenten, der Menschen ständig überredet oder ins Leere plappert.
Welche Anrufe ein KI-Assistent zuverlässig übernimmt – und welche nicht
Die ehrliche Antwort: Ein KI-Telefonassistent ist stark bei wiederkehrenden, strukturierten Anliegen und schwach überall dort, wo es auf Urteilsvermögen ankommt. Das ist keine Schwäche der Technik, sondern eine Frage des sinnvollen Einsatzes.
Gut geeignet:
- Anrufannahme außerhalb der Geschäftszeiten, damit kein Anruf verloren geht
- Wiederkehrende Standardfragen (Öffnungszeiten, Adresse, Status einer Bestellung)
- Terminbuchung und -verschiebung gegen einen angebundenen Kalender
- Strukturierte Aufnahme von Rückrufwünschen mit Name, Anliegen und Erreichbarkeit
- Vorqualifizierung und Weiterleitung an die richtige Abteilung
Schlecht geeignet – und das ist richtig so:
- Beschwerden und emotionale Gespräche, die Fingerspitzengefühl verlangen
- Verhandlungen, individuelle Angebote, komplexe Beratung
- Alles, was rechtlich verbindliche Zusagen erfordert
Ein KI-Telefonassistent ist kein Ersatz für Ihr Team, sondern ein Filter davor: Er nimmt jeden Anruf in der ersten Sekunde an, beantwortet wiederkehrende Standardfragen und nimmt Rückrufwünsche strukturiert auf. Sobald ein Gespräch Urteilsvermögen, Verhandlung oder Empathie verlangt, ist seine Aufgabe, sauber an einen Menschen zu übergeben – nicht, ihn zu ersetzen.
Wo n8n ins Spiel kommt: der Assistent ist nur die Stimme
Ein verbreitetes Missverständnis: Man kauft „eine KI“, und sie erledigt alles. In der Praxis sind hier mehrere Schichten im Spiel. Die Echtzeit-Sprachverarbeitung übernehmen spezialisierte Plattformen wie Vapi, Retell oder die Realtime-Schnittstellen großer Modellanbieter. Die Telefonie selbst – also Rufnummer und Anbindung ans Telefonnetz – liefert ein Provider wie Twilio. Erst die dritte Schicht macht den Assistenten für Ihren Betrieb nützlich: die Verbindung zu Ihren eigenen Systemen.
Genau das ist die Rolle einer Automatisierungsplattform wie n8n. Der Assistent erkennt die Absicht des Anrufers, schickt die strukturierten Daten per Webhook an n8n, und dort laufen die eigentlichen Geschäftslogik-Schritte: Termin im Kalender prüfen und eintragen, Kontakt im CRM anlegen oder aktualisieren, eine Bestätigungs-E-Mail auslösen, dem zuständigen Mitarbeiter ein Ticket erstellen. Plattformen wie Retell bieten dafür eine fertige n8n-Integration an. n8n selbst verarbeitet keine Audiodaten in Echtzeit – es ist die Schaltzentrale dahinter, die den Anruf mit Ihren Daten verbindet.
Dieses Schichtmodell hat einen praktischen Vorteil: Sie sind nicht an einen Anbieter gekettet. Wenn die Geschäftslogik in n8n liegt, lässt sich die Sprach-Schicht später austauschen, ohne den halben Betrieb neu aufzubauen. Wie ein solches Zusammenspiel grundsätzlich aussieht, zeige ich auf meiner n8n-Beratungsseite; konkrete Automatisierungsbeispiele aus dem KMU-Umfeld finden Sie unter Use Cases.
DSGVO: die Stimme ist ein personenbezogenes Datum
Hier wird es ernst, und hier scheitern viele schnell gebaute Lösungen. Ein Telefongespräch fällt vollständig in den Anwendungsbereich der DSGVO – die menschliche Stimme ist ein personenbezogenes Datum. Sobald sie zur Wiedererkennung verarbeitet wird, kann sie sogar als biometrisches Datum nach Art. 9 DSGVO besonders geschützt sein. Worauf Sie achten müssen:
- Rechtsgrundlage und Einwilligung: Als Grundlage kommen Vertragserfüllung (Art. 6 Abs. 1 b) oder berechtigtes Interesse (Art. 6 Abs. 1 f) infrage. Für die Aufzeichnung und Transkription des Gesprächs reicht das in der Regel nicht – dafür ist eine ausdrückliche Einwilligung nötig, etwa über eine Ansage zu Beginn. Stillschweigend abgeleitetes Einverständnis genügt nicht.
- Informationspflicht (Art. 13): Anrufer müssen verständlich erfahren, was mit ihren Daten passiert – typischerweise per kurzer Ansage plus Verweis auf eine ausführliche Datenschutzinformation.
- Auftragsverarbeitung (Art. 28): Mit dem Plattformanbieter brauchen Sie einen AV-Vertrag. Sitzt der Anbieter in einem Drittland wie den USA, müssen Sie zusätzlich die Übermittlung absichern.
- Datensparsamkeit: Aufzeichnungen nur so lange speichern, wie nötig – für Telefonmitschnitte gilt in der Praxis oft eine Obergrenze von rund sechs Monaten.
Das ist kein Argument gegen KI am Telefon, sondern eines für eine saubere Umsetzung. Wer datenschutzfreundliche Anbieter wählt und die Einwilligung sauber einholt, ist auf der sicheren Seite. Einen Überblick über DSGVO-Fragen bei der Automatisierung gebe ich auch in meiner Beratung zu DSGVO-konformer Automatisierung.
EU AI Act: ab 2. August 2026 müssen Anrufer wissen, dass es KI ist
Neu und für jeden Betreiber relevant: Der EU AI Act verlangt ab dem 2. August 2026 Transparenz bei KI-Systemen, die direkt mit Menschen interagieren. Nach Artikel 50 müssen Anrufer spätestens zu Beginn des Gesprächs „in klarer und unterscheidbarer Weise“ darüber informiert werden, dass sie mit einem KI-System sprechen – nicht mit einem Menschen. Ein KI-Telefonassistent fällt eindeutig in diese Kategorie.
Eine Ausnahme greift nur, wenn der KI-Charakter für eine verständige Person ohnehin offensichtlich ist – darauf sollten Sie sich bei einem überzeugend menschlich klingenden Assistenten nicht verlassen. In der Praxis heißt das: eine klare Eingangsansage. Das ist technisch trivial und schützt vor Bußgeldern: Verstöße ordnet die Verordnung der mittleren Sanktionsstufe zu – bis zu 15 Mio. Euro oder 3 % des weltweiten Jahresumsatzes (Art. 99). Für kleine und mittlere Unternehmen soll die wirtschaftliche Leistungsfähigkeit dabei berücksichtigt werden. Die gute Nachricht: Wer die Offenlegung von Anfang an einbaut, hat diese Pflicht mit einem Satz erledigt.
Was kostet ein KI-Telefonassistent?
Hier kursieren Zahlen von „ab 29 Euro“ bis zu vierstelligen Beträgen – beides kann stimmen, weil zwei Kostenblöcke zusammenkommen. Anbietervergleiche für 2026 nennen für die laufenden Kosten Monatspauschalen je nach Inklusivminuten und Funktionsumfang sowie Minutenpreise in der Größenordnung von etwa 0,12 bis 0,50 Euro pro Gesprächsminute. Dazu kommt der einmalige Einrichtungsaufwand – und der entscheidet, ob der Assistent ein nettes Gadget bleibt oder echte Arbeit abnimmt.
Eine fertige Out-of-the-box-Lösung, die nur Anrufe annimmt und Standardfragen beantwortet, ist günstig und schnell live. Sobald der Assistent aber Termine in Ihren Kalender buchen, ins CRM schreiben oder Tickets erzeugen soll, brauchen Sie die Integrationsschicht – genau die Geschäftslogik, die in n8n liegt. Der ehrliche Hinweis: Rechnen Sie nicht in monatlichen Lizenzkosten, sondern im Verhältnis zu den verpassten Anrufen und der eingesparten Zeit. Wie man so eine Rechnung sauber aufmacht, habe ich im Artikel Was kostet Prozessautomatisierung wirklich ausführlich gezeigt.
Lohnt sich das für Ihren Betrieb?
Als Faustregel aus Gesprächen mit Betrieben: Ein KI-Telefonassistent lohnt sich dort am schnellsten, wo viele gleichartige Anrufe auflaufen und wo verpasste Anrufe bares Geld kosten – etwa weil Kunden sonst beim Wettbewerber anrufen. Geht es dagegen vor allem um wenige, individuelle und beratungsintensive Gespräche, ist der Hebel klein und der Aufwand kaum gerechtfertigt.
Wenn Sie wissen möchten, ob sich ein KI-Telefonassistent für Ihre Anrufstruktur rechnet – und welche Schritte sich sonst noch automatisieren lassen –, ist ein kostenloser Prozess-Check der ehrlichste Einstieg. Dabei schauen wir gemeinsam an, wie viele Ihrer Anrufe wirklich standardisierbar sind, welche datenschutzkonforme Umsetzung infrage kommt und wo der erste, überschaubare Schritt liegt. Manchmal ist das Ergebnis auch: Für Ihren Fall lohnt es sich (noch) nicht – und auch das ist eine nützliche Antwort.