Koca Ventures Ltd
71-75 Shelton Street
Covent Garden, London
WC2H 9JQ, United Kingdom
Registered in England & Wales — 16231043
一个为您接听电话的语音坐席——运行在您自有的硬件上。
本地部署的语音坐席负责接听业务来电,完成预约、转接和日常问题应答,并将每一秒音频都留在您自己的网络内。隐私和数据掌控才是核心——而不是把云平台做成更便宜的复制品。我们对边界坦诚:自然的对话轮替,而非冒充真人。
本地语音真正发挥价值的场景
诊所与受监管机构
非工作时间预约、保险与营业时间咨询、先分诊后转接——每一段通话录音、每一个字都保留在您自己的硬件上。当患者数据不能放在多租户云上时,这是最契合的方案。
经销商与经销商集团
维保预约、多门店来电转接,以及在所有线路占线时的线索捕获。坦诚相告:坐席处理日常咨询,把其余的转给合适的座席。
餐厅与酒店服务
订位、人数与空位查询、菜单咨询和确认——让电话不再在高峰时段把员工从一线拉走。
非工作时间与溢出接待
经济动因在于漏接的电话:相当大比例的来电发生在非工作时间或线路占线时,而大多数来电者再也不会回拨。坐席负责溢出和非工作时间的来电,完成预约或留言,并把真正需要处理的事项上转。
日常来电,由它搞定——疑难来电,转交人工
预约与改约、来电转接、应答那些一整天都在被问到的问题、接收回拨,以及覆盖您团队顾不上的时段。这套模式从设计上就是混合式的:坐席端到端处理占多数的日常来电,把任何真正需要处理的事项连同已收集好的上下文转交给人工。经济逻辑很简单——您在非工作时间或线路全忙时漏接的电话,大多再也不会回拨。
每一层都运行在您掌控的硬件上
语音转文字(本地)
以 faster-whisper 为主力——对包括土耳其语在内的多种语言都很稳健,运行在您自己的 GPU 上。在没有 NVIDIA 显卡的场景,whisper.cpp 作为 CPU 备选。
对话轮替与抢话(本地)
用 Silero VAD 做语音检测,再加上 LiveKit 的语义轮次检测器,让坐席明白“我得想一想……”并不代表一轮话说完了。它在 CPU 上运行,并且确实支持土耳其语——这是实打实的加分项。
对话模型(本地)
一个自托管的 LLM(Qwen3 或 Llama 级别的 8B),由 vLLM 服务于并发来电,或在简单的单线路场景下用 Ollama——完整驻留在 GPU 的 VRAM 中,让智能体循环保持迅捷。
文字转语音(本地)
用 Kokoro 或 Piper 提供可商用的本地语音;在许可证允许的情况下用 XTTS-v2 做克隆语音。这一层正是下文要坦诚说明的环节。
电话接入与 SIP 桥接
通过 SIP 中继(Twilio 或 Telnyx)接入一个真实电话号码,桥接到自托管的媒体服务器——Asterisk、FreeSWITCH 或 LiveKit SIP。我们保留您现有的 PBX,只把您选定的线路路由给坐席。
编排
由 LiveKit Agents 或 Pipecat 把整条流水线串起来——对每个环节做流式处理、应对打断,并运行在您自有的硬件上。我们可以部署在您的机器上,或者作为托管式本地部署选项,运行在我们自己的双节点 GPU 集群上(一块 RTX 4090 加一块 RTX 3060)。
本地语音(目前)做不到什么——直说
延迟约为 0.5–1.2 秒,做不到与真人相当
调校良好的本地技术栈端到端大约在半秒到一秒出头之间。这是自然、可打断的对话轮替——但真人之间大约只留 200ms 的间隙,连最快的云端语音也在 0.8–1.1 秒左右。我们不会告诉您它和真人无从分辨,因为事实并非如此。
土耳其语文字转语音是薄弱环节
可商用的本地土耳其语语音(Piper)听起来更机械;最自然的那个(XTTS-v2)带有非商业许可证,投入生产前需要单独签署协议。土耳其语的语音转文字和对话轮替都很扎实——但在 TTS 的自然度上,我们如实告知预期,而不夸大其词。
本地部署用云端可用性换取数据掌控
云平台开箱即给您 99.9%+ 的地理冗余可用性。运行在您自己的硬件上意味着,您场所内的一次故障就是一个需要应对的真实事件——这也是为什么本地部署会配套维护与监控顾问服务,并在确有必要时提供混合故障切换方案。
有时候,云端就是更合适的选择
在一定通话量以下,托管式云平台搭建得更便宜、更快,我们会照实说。当数据主权、合规或持续的高通话量是真实约束时,本地部署才有意义——它不该是适用于所有人的默认选项。
我们不会向您兜售“一个取代员工的 AI”,也不会兜售一个与真人无从分辨的声音——两者都不属实,您打第一通电话就会发现。我们打造的是一套归您所有的语音系统:它运行在您数据所在之处,处理日常负荷,并对它在哪里止步、由人接手坦诚相告。
以减法实现隐私: 因为音频始终不出您的网络,流程中没有第三方处理方,也不会在云端留存您的通话录音——这是数据驻留规则下最干净的路径。这是一套可本地部署/可离线运行的语音方案,与我们另外的 本地部署智能体系统并列。它与我们的本地房地产 CRM 是各自独立的能力,后者做的是文档智能,不含任何语音组件。
直接的回答
这和 Vapi、Retell 或 ElevenLabs 有什么不同?
那些都是出色的云平台,上线很快——我们不会假装在开箱即用的便利性或纯粹的语音自然度上能胜过它们。我们的切入点不同:整条流水线都运行在您的硬件上,因此音频、转写文本和来电者数据始终不出您的网络。如果您一直不采用语音的理由是“我不会把通话录音放到美国的多租户云上”,那正是我们发力的地方。
来电者会以为是真人吗?
不会——我们也不会这样宣称。真人在对话中大约留出 200ms 的间隙;调校良好的本地技术栈端到端大约在 0.5–1.2 秒。这是自然、可打断的对话轮替,而非冒充真人。坦诚的说法是:一个能干净利落地处理占多数日常来电、并把疑难来电交给人工的坐席。
土耳其语怎么样?
我们就直说了:土耳其语文字转语音是目前的薄弱环节。可商用的本地选项(Piper)听起来更机械,最自然的本地选项(XTTS-v2)带有非商业许可证,投入生产使用前需要单独签署协议。土耳其语的语音转文字用 Whisper 系列很扎实,轮替模型也确实支持土耳其语——但在 TTS 的自然度上,我们如实告知预期,而不做过度承诺。
本地部署有什么代价?
本地部署用云端的即时扩容和地理冗余,换取真正归您所有的数据掌控——同时它也增加了维护负担。云平台提供跨区域 99.9%+ 的可用性;而您场所内的一次硬件故障是个需要有人处理的现实事件。我们用监控与维护顾问服务来覆盖这一点,并在合适的场景下提供混合故障切换方案。在一定通话量以下,云端就是更便宜,当这正是您的情况时,我们会如实相告。
你们如何定价?
本地部署颠覆了云端按分钟计费的模式。您不再按分钟付费,而是支付一次性的搭建与集成费用(通话流程设计、将 SIP 集成到您现有的 PBX、模型选型与调校、转接逻辑、部署),随后是一笔固定的月费或按线路容量计的费用——因为算力是自有的,而非按量计量——再加上一笔维护与监控顾问费。PSTN 运营商的按分钟成本无法避免,会原样转嫁。我们在了解通话流程之后按项目报价;没有标价。
这和你们的房产 CRM 是一回事吗?
不是——它们各自独立。我们的本地房地产 CRM 做的是文档智能与检索;它不含任何语音或电话组件。语音坐席是一项独立的能力:一套围绕您通话流程构建、归您所有并运行在您数据所在之处的新系统。别把语音读进 CRM,也别把 CRM 读进这里。
Last reviewed:
告诉我们您的通话流程
告诉我们电话在哪里让您头疼——非工作时间漏接的预约、忙线时的溢出来电、占用团队一整天的日常问题——我们会围绕您真实的通话流程来规划一个本地语音坐席。定价按项目而定,在我们了解工作内容之后报价。
