ON-PREM-TELEFON-VOICE-AGENTS

Ein AI Voice Agent, der Ihre Anrufe entgegennimmt –auf Ihrer eigenen Hardware.

KI-Voice-Agents, die geschäftliche Anrufe annehmen — Terminbuchung, Weiterleitung, FAQs, Rückrufe — und jede Sekunde Audio bleibt in Ihrem eigenen Netzwerk. Wir sind ehrlich zu den Grenzen: natürlicher Gesprächsfluss, keine menschliche Imitation.

Sprechen wir über Ihren Anrufablauf

Beispiel eines eingehenden Buchungsanrufs — Audio plus Live-Transkript und Latenzanzeige (in Kürze)

FÜR WEN ES GEDACHT IST

Wo sich On-Prem-Voice wirklich auszahlt

Praxen & regulierte Einrichtungen

Terminbuchung außerhalb der Sprechzeiten, Fragen zu Versicherung und Öffnungszeiten sowie Vortriage mit Weiterleitung. Der sauberste Anwendungsfall, wenn Patientendaten nicht in einer mandantenfähigen Cloud liegen dürfen.

Autohäuser & Händlergruppen

Buchung von Servicetermine, standortübergreifende Anrufweiterleitung und Lead-Erfassung, wenn alle Leitungen besetzt sind. Der Agent erledigt die Routineanfrage und leitet den Rest an den richtigen Ansprechpartner weiter.

Restaurants & Gastgewerbe

Reservierungen, Tischgröße und Verfügbarkeit, Fragen zur Speisekarte und Bestätigungen — damit das Telefon Ihr Personal im Stoßbetrieb nicht mehr von der Arbeit abhält.

Erreichbarkeit nach Feierabend & bei Überlauf

Die meisten verpassten Anrufer rufen nie zurück — und ein großer Teil der eingehenden Anrufe kommt außerhalb der Geschäftszeiten oder wenn jede Leitung besetzt ist. Der Agent fängt den Überlauf ab, bucht oder nimmt eine Nachricht auf und eskaliert alles Wesentliche.

WAS ES LEISTET

Die Routineanrufe erledigt — die schwierigen übergeben

Buchen und Umbuchen, Anrufweiterleitung, die Fragen, die Ihnen den ganzen Tag gestellt werden, Rückrufe und die Stunden, die Ihr Team nicht abdecken kann. Der Agent erledigt die Routinemehrheit der Anrufe durchgängig und übergibt alles Wesentliche an einen Menschen — mit bereits gesammeltem Kontext.

DER ON-PREM-STACK

Jede Schicht läuft auf Hardware, die Sie kontrollieren

Speech-to-Text (lokal)

faster-whisper als Arbeitspferd — robust über viele Sprachen hinweg, einschließlich Türkisch, ausgeführt auf Ihrer eigenen GPU. whisper.cpp ist die CPU-Alternative, wenn keine NVIDIA-Karte vorhanden ist.

Gesprächsfluss & Barge-in (lokal)

Silero VAD für die Spracherkennung plus LiveKits semantischer Turn-Detektor, damit der Agent weiß, dass „Da muss ich kurz überlegen …“ nicht das Ende eines Redebeitrags ist. Läuft auf CPU und deckt Türkisch ab.

Das Dialogmodell (lokal)

Ein selbst gehostetes LLM (Qwen3 oder ein 8B-Modell der Llama-Klasse), serviert über vLLM für parallele Anrufer oder Ollama für den einfachen Ein-Leitungs-Fall — im VRAM gehalten, damit die agentische Schleife schnell bleibt.

Text-to-Speech (lokal)

Kokoro oder Piper für kommerziell unbedenkliche lokale Stimmen; XTTS-v2 für geklonte Stimmen, wo eine Lizenz dies erlaubt. Dies ist die Schicht mit dem offen benannten Vorbehalt weiter unten.

Telefonie & die SIP-Bridge

Eine echte Telefonnummer über einen SIP-Trunk (Twilio oder Telnyx), gebrückt in einen selbst gehosteten Medienserver — Asterisk, FreeSWITCH oder LiveKit SIP. Ihre bestehende Telefonanlage bleibt; nur die Leitungen, die Sie wählen, laufen zum Agenten.

Orchestrierung

LiveKit Agents oder Pipecat hält die Pipeline zusammen — jede Stufe wird gestreamt, Unterbrechungen werden behandelt. Wir betreiben sie auf Ihren Maschinen oder, als verwaltete Option, auf unserem eigenen GPU-Cluster mit zwei Knoten.

EHRLICHE GRENZEN

Was On-Prem-Voice (noch) nicht kann — klar gesagt

Die Latenz liegt bei ~0,5–1,2 Sekunden, nicht auf menschlichem Niveau

Ein gut abgestimmter lokaler Stack landet end-to-end bei etwa einer halben bis gut einer Sekunde. Das ist ein natürlicher, unterbrechbarer Gesprächsfluss — aber ein Mensch lässt etwa 200 ms Pause, und selbst die schnellsten Cloud-Sprachsysteme liegen bei rund 0,8–1,1 s. Wir werden Ihnen nicht erzählen, es sei von einem Menschen nicht zu unterscheiden, denn das ist es nicht.

Türkisches Text-to-Speech ist das schwächste Glied

Die kommerziell unbedenkliche lokale türkische Stimme (Piper) klingt eher roboterhaft; die natürlichste (XTTS-v2) ist an eine nicht-kommerzielle Lizenz gebunden, die vor dem Produktiveinsatz eine separate Vereinbarung erfordert. Türkisches Speech-to-Text und der Gesprächsfluss sind solide — doch bei der Natürlichkeit von TTS setzen wir die Erwartungen lieber ehrlich, statt zu viel zu versprechen.

On-Prem tauscht Cloud-Verfügbarkeit gegen Datenhoheit

Cloud-Plattformen liefern Ihnen von Haus aus eine geo-redundante Verfügbarkeit von 99,9 %+. Der Betrieb auf eigener Hardware bedeutet, dass ein Ausfall in Ihren Räumen ein realer Vorfall ist, der behandelt werden muss — weshalb On-Prem mit einem Wartungs- und Monitoring-Retainer kommt sowie mit einem hybriden Failover-Pfad, wo es angebracht ist.

Manchmal ist die Cloud schlicht die bessere Wahl

Unterhalb eines bestimmten Anrufvolumens ist eine Managed-Cloud-Plattform günstiger und schneller aufgesetzt — und das sagen wir auch. On-Prem ergibt Sinn, wenn Datensouveränität, Regulierung oder dauerhaft hohes Volumen reale Rahmenbedingungen sind — nicht als Standardlösung für jeden.

Wir verkaufen weder „eine KI, die Ihr Personal ersetzt“ noch eine Stimme, die von einem Menschen nicht zu unterscheiden ist — beides stimmt nicht, und Sie würden es beim ersten Anruf merken. Wir bauen für die Routinelast und sind ehrlich dazu, wo ein Mensch übernimmt.

Datenschutz durch Reduktion: weil das Audio nie Ihr Netzwerk verlässt, gibt es keinen Drittverarbeiter im Spiel und keine Cloud-Aufzeichnung Ihrer Anrufe. Dies ist On-Prem-Voice, offlinefähig, und sie steht neben unseren übrigen On-Premise-Agentensystemen. Es ist eine eigenständige Leistung, getrennt von unserem On-Prem-Immobilien-CRM, das Dokumentenintelligenz leistet und keine Sprachkomponente hat.

FRAGEN

Klare Antworten

Worin unterscheidet sich das von Vapi, Retell oder ElevenLabs?

Das sind exzellente Cloud-Plattformen, und sie liefern schneller — das tun wir nicht klein. Unser Hebel: Die gesamte Pipeline läuft auf Ihrer Hardware, sodass Audio, Transkripte und Anruferdaten Ihr Netzwerk nie verlassen. Wenn „keine Anrufaufzeichnungen in einer mandantenfähigen Cloud“ Ihre Vorgabe ist, ist das die Lücke, in der wir arbeiten.

Wie kalkulieren Sie den Preis?

Pro Engagement — es gibt keinen Listenpreis. On-Prem dreht das Pro-Minute-Modell der Cloud um: eine einmalige Build- und Integrationsgebühr, dann eine feste monatliche oder leitungsbezogene Pauschale, weil die Rechenleistung im Besitz ist, nicht getaktet. Die Minutenkosten des Carriers werden durchgereicht.

Ist ein AI Voice Agent UK-GDPR-konform?

Das kann es sein — und on-premise ist der sauberste Weg, weil kein Drittverarbeiter im Spiel ist. Sie bleiben der Verantwortliche im Sinne des Datenschutzes: Hinweis auf Anrufaufzeichnung, Aufbewahrung und Rechtsgrundlage legen Sie fest. Wir bauen das System; die Compliance-Freigabe bleibt bei Ihnen.

Kann er Termine buchen und Anrufe weiterleiten?

Ja — genau das ist der Kern: Buchen und Umbuchen, Anrufweiterleitung, FAQs, Rückrufe sowie Abdeckung nach Feierabend und bei Überlauf — alles Wesentliche wird mit Kontext an einen Menschen übergeben.

Last reviewed: 5 June 2026

BEREIT FÜR EIN GESPRÄCH?

Erzählen Sie uns von Ihrem Anrufablauf

Sagen Sie uns, wo das Telefon wehtut — verpasste Buchungen nach Feierabend, Überlauf auf besetzten Leitungen, Routinefragen, die den Tag Ihres Teams auffressen — und wir stecken einen Voice-Agent rund um Ihren echten Anrufablauf ab.

Angebot anfordern

Folgen Sie uns