Koca Ventures Ltd
71-75 Shelton Street
Covent Garden, London
WC2H 9JQ, United Kingdom
Registered in England & Wales — 16231043
Ein Voice-Agent, der Ihre Anrufe annimmt —auf Ihrer eigenen Hardware.
On-Premise-Voice-Agents, die geschäftliche Anrufe entgegennehmen, buchen, weiterleiten und die wiederkehrenden Fragen beantworten — und dabei jede Sekunde Audio in Ihrem eigenen Netzwerk halten. Datenschutz und Datenhoheit sind der eigentliche Zweck — nicht eine billigere Kopie einer Cloud-Plattform. Wir benennen die Grenzen offen: natürlicher Gesprächsfluss, keine menschliche Imitation.
Wo sich On-Prem-Voice wirklich auszahlt
Praxen & regulierte Einrichtungen
Terminbuchung außerhalb der Sprechzeiten, Fragen zu Versicherung und Öffnungszeiten sowie Vortriage mit anschließender Weiterleitung — und das mit jeder Anrufaufzeichnung und jedem Wort auf Ihrer eigenen Hardware. Der sauberste Anwendungsfall, wenn Patientendaten nicht in einer mandantenfähigen Cloud liegen dürfen.
Autohäuser & Händlergruppen
Buchung von Servicetermine, standortübergreifende Anrufweiterleitung und Lead-Erfassung, wenn alle Leitungen besetzt sind. Der Agent erledigt die Routineanfrage und leitet den Rest an den richtigen Ansprechpartner weiter.
Restaurants & Gastgewerbe
Reservierungen, Tischgröße und Verfügbarkeit, Fragen zur Speisekarte und Bestätigungen — damit das Telefon Ihr Personal im Stoßbetrieb nicht mehr von der Arbeit abhält.
Erreichbarkeit nach Feierabend & bei Überlauf
Der wirtschaftliche Treiber ist der verpasste Anruf: Ein großer Teil der eingehenden Anrufe trifft außerhalb der Geschäftszeiten oder bei besetzter Leitung ein, und die meisten Anrufer rufen nie zurück. Der Agent deckt Überlauf und Randzeiten ab, bucht oder nimmt eine Nachricht auf und eskaliert alles, was wirklich relevant ist.
Die Routineanrufe erledigt — die schwierigen übergeben
Buchung und Umbuchung, Anrufweiterleitung, das Beantworten der Fragen, die Sie den ganzen Tag hören, das Aufnehmen von Rückrufwünschen und das Abdecken der Zeiten, in denen Ihr Team nicht erreichbar ist. Das Modell ist von Grund auf hybrid: Der Agent wickelt den Großteil der Routineanrufe vollständig ab und übergibt alles Relevante an einen Menschen — mit dem bereits erfassten Kontext. Die wirtschaftliche Rechnung ist einfach — die Anrufe, die Sie nach Feierabend oder bei besetzten Leitungen verpassen, sind Anrufe, die meist nie zurückkommen.
Jede Schicht läuft auf Hardware, die Sie kontrollieren
Speech-to-Text (lokal)
faster-whisper als Arbeitspferd — robust über viele Sprachen hinweg, einschließlich Türkisch, ausgeführt auf Ihrer eigenen GPU. whisper.cpp ist die CPU-Alternative, wenn keine NVIDIA-Karte vorhanden ist.
Gesprächsfluss & Barge-in (lokal)
Silero VAD zur Spracherkennung plus der semantische Turn-Detector von LiveKit, damit der Agent erkennt, dass „Ich muss kurz überlegen …“ noch nicht das Ende eines Gesprächsbeitrags ist. Das läuft auf der CPU und deckt auch Türkisch ab — ein echter Pluspunkt.
Das Dialogmodell (lokal)
Ein selbst gehostetes LLM (Qwen3 oder ein 8B-Modell der Llama-Klasse), bereitgestellt über vLLM für mehrere gleichzeitige Anrufer oder Ollama für den einfachen Einzelleitungsfall — vollständig im VRAM der GPU gehalten, damit die agentische Schleife schnell bleibt.
Text-to-Speech (lokal)
Kokoro oder Piper für kommerziell unbedenkliche lokale Stimmen; XTTS-v2 für geklonte Stimmen, wo eine Lizenz dies erlaubt. Dies ist die Schicht mit dem offen benannten Vorbehalt weiter unten.
Telefonie & die SIP-Bridge
Eine echte Rufnummer über einen SIP-Trunk (Twilio oder Telnyx), eingebunden in einen selbst gehosteten Medienserver — Asterisk, FreeSWITCH oder LiveKit SIP. Wir behalten Ihre bestehende Telefonanlage und leiten nur die Leitungen an den Agenten, die Sie auswählen.
Orchestrierung
LiveKit Agents oder Pipecat führt die Pipeline zusammen — streamt jede Stufe, behandelt Unterbrechungen und läuft auf Hardware, die Ihnen gehört. Wir können es auf Ihren Maschinen betreiben oder, als Managed-On-Prem-Option, auf unserem eigenen GPU-Cluster mit zwei Knoten (eine RTX 4090 plus eine RTX 3060).
Was On-Prem-Voice (noch) nicht kann — klar gesagt
Die Latenz liegt bei ~0,5–1,2 Sekunden, nicht auf menschlichem Niveau
Ein gut abgestimmter lokaler Stack landet end-to-end bei etwa einer halben bis gut einer Sekunde. Das ist ein natürlicher, unterbrechbarer Gesprächsfluss — aber ein Mensch lässt etwa 200 ms Pause, und selbst die schnellsten Cloud-Sprachsysteme liegen bei rund 0,8–1,1 s. Wir werden Ihnen nicht erzählen, es sei von einem Menschen nicht zu unterscheiden, denn das ist es nicht.
Türkisches Text-to-Speech ist das schwächste Glied
Die kommerziell unbedenkliche lokale türkische Stimme (Piper) klingt eher roboterhaft; die natürlichste (XTTS-v2) ist an eine nicht-kommerzielle Lizenz gebunden, die vor dem Produktiveinsatz eine separate Vereinbarung erfordert. Türkisches Speech-to-Text und der Gesprächsfluss sind solide — doch bei der Natürlichkeit von TTS setzen wir die Erwartungen lieber ehrlich, statt zu viel zu versprechen.
On-Prem tauscht Cloud-Verfügbarkeit gegen Datenhoheit
Cloud-Plattformen liefern Ihnen von Haus aus eine geo-redundante Verfügbarkeit von 99,9 %+. Der Betrieb auf eigener Hardware bedeutet, dass ein Ausfall in Ihren Räumen ein realer Vorfall ist, der behandelt werden muss — weshalb On-Prem mit einem Wartungs- und Monitoring-Retainer kommt sowie mit einem hybriden Failover-Pfad, wo es angebracht ist.
Manchmal ist die Cloud schlicht die bessere Wahl
Unterhalb eines bestimmten Anrufvolumens ist eine Managed-Cloud-Plattform günstiger und schneller aufgesetzt — und das sagen wir auch. On-Prem ergibt Sinn, wenn Datensouveränität, Regulierung oder dauerhaft hohes Volumen reale Rahmenbedingungen sind — nicht als Standardlösung für jeden.
Wir verkaufen weder „eine KI, die Ihr Personal ersetzt“ noch eine Stimme, die von einem Menschen nicht zu unterscheiden ist — beides stimmt nicht, und Sie würden es schon beim ersten Anruf merken. Was wir bauen, ist ein Sprachsystem, das Ihnen gehört: Es läuft dort, wo Ihre Daten liegen, es bewältigt die Routinelast, und es ist ehrlich darüber, wo es aufhört und ein Mensch übernimmt.
Datenschutz durch Reduktion: Weil das Audio nie Ihr Netzwerk verlässt, gibt es keinen Drittverarbeiter im Spiel und keine Cloud-Aufzeichnung Ihrer Anrufe — der sauberste Weg unter Vorgaben zur Datenresidenz. Dies ist On-Prem- / offline-fähige Voice und steht neben unseren übrigen On-Premise-Agentensystemen. Es ist eine eigenständige Leistung, getrennt von unserem On-Prem-Immobilien-CRM, das Dokumentenintelligenz leistet und keine Sprachkomponente hat.
Klare Antworten
Worin unterscheidet sich das von Vapi, Retell oder ElevenLabs?
Das sind hervorragende Cloud-Plattformen und schnell startklar — wir tun nicht so, als würden wir sie beim sofort einsatzbereiten Komfort oder bei der reinen Natürlichkeit der Stimme schlagen. Unser Ansatzpunkt ist ein anderer: Die gesamte Pipeline läuft auf Ihrer Hardware, sodass das Audio, die Transkripte und die Anruferdaten nie Ihr Netzwerk verlassen. Wenn Ihr Grund, auf Voice zu verzichten, lautete „Ich lege keine Anrufaufzeichnungen in einer mandantenfähigen US-Cloud ab“, dann ist genau das die Lücke, in der wir arbeiten.
Werden Anrufer es für einen echten Menschen halten?
Nein — und das behaupten wir auch nicht. Ein Mensch lässt etwa 200 ms Pause im Gespräch; ein gut abgestimmter lokaler Stack landet end-to-end bei rund 0,5–1,2 Sekunden. Das ist ein natürlicher, unterbrechbarer Gesprächsfluss, keine menschliche Imitation. Die ehrliche Einordnung lautet: ein Agent, der den Großteil der Routineanrufe sauber erledigt und die schwierigen an einen Menschen übergibt.
Und was ist mit Türkisch?
Wir sagen es klar: Türkisches Text-to-Speech ist derzeit das schwächste Glied. Die kommerziell unbedenkliche lokale Option (Piper) klingt eher roboterhaft, und die natürlichste lokale Option (XTTS-v2) ist an eine nicht-kommerzielle Lizenz gebunden, die für den Produktiveinsatz eine separate Vereinbarung erfordert. Speech-to-Text auf Türkisch ist mit der Whisper-Familie solide, und das Turn-Taking-Modell deckt Türkisch ab — doch bei der Natürlichkeit von TTS setzen wir die Erwartungen lieber ehrlich, statt zu viel zu versprechen.
Wo ist der Haken beim On-Prem-Betrieb?
On-Prem tauscht die sofortige Skalierung und Geo-Redundanz der Cloud gegen Datenhoheit, die Ihnen wirklich gehört — und bringt einen Wartungsaufwand mit sich. Eine Cloud-Plattform bietet eine Verfügbarkeit von 99,9 %+ über mehrere Regionen; ein Hardwareausfall in Ihren Räumen ist ein realer Vorfall, um den sich jemand kümmern muss. Das decken wir mit einem Monitoring- und Wartungs-Retainer ab sowie mit einem hybriden Failover-Pfad, wo es sinnvoll ist. Unterhalb eines bestimmten Anrufvolumens ist die Cloud schlicht günstiger, und wir sagen Ihnen, wenn das auf Sie zutrifft.
Wie kalkulieren Sie den Preis?
On-Prem kehrt das Minutenmodell der Cloud um. Statt pro Minute zu zahlen, entrichten Sie eine einmalige Aufbau- und Integrationsgebühr (Gestaltung des Anrufablaufs, SIP-Integration in Ihre bestehende Telefonanlage, Modellauswahl und Feinabstimmung, Übergabelogik, Deployment) und anschließend eine pauschale monatliche oder kapazitätsbezogene Gebühr pro Leitung, weil die Rechenleistung Ihnen gehört und nicht nach Verbrauch abgerechnet wird — zuzüglich eines Wartungs- und Monitoring-Retainers. Die Minutenkosten des PSTN-Carriers sind unvermeidbar und werden durchgereicht. Wir kalkulieren pro Projekt, nachdem wir den Anrufablauf verstanden haben; einen Listenpreis gibt es nicht.
Ist das dasselbe wie Ihr Immobilien-CRM?
Nein — das sind zwei getrennte Dinge. Unser On-Premise-Immobilien-CRM leistet Dokumentenintelligenz und -abruf; es hat keine Sprach- oder Telefonkomponente. Voice-Agents sind eine eigenständige Leistung: ein neues System, rund um Ihren Anrufablauf gebaut, das Ihnen gehört und dort läuft, wo Ihre Daten liegen. Lesen Sie weder Voice in das CRM noch das CRM in dieses System hinein.
Last reviewed:
Erzählen Sie uns von Ihrem Anrufablauf
Sagen Sie uns, wo das Telefon wehtut — verpasste Buchungen nach Feierabend, Überlauf auf belegten Leitungen, Routinefragen, die den Tag Ihres Teams auffressen — und wir skizzieren einen On-Prem-Voice-Agenten rund um Ihren realen Anrufablauf. Die Preisgestaltung erfolgt pro Projekt, kalkuliert, nachdem wir den Aufwand verstanden haben.
