Koca Ventures Ltd
71-75 Shelton Street
Covent Garden, London
WC2H 9JQ, United Kingdom
Registered in England & Wales — 16231043
Un agente de voz que atiende sus teléfonos:ejecutándose en su propio hardware.
Agentes de voz on-premise que contestan las llamadas de su negocio, reservan, enrutan y resuelven las preguntas rutinarias, y mantienen cada segundo de audio dentro de su propia red. La privacidad y el control de los datos son la razón de ser, no una copia más barata de una plataforma en la nube. Somos honestos sobre los límites: una alternancia de turnos natural, no una suplantación humana.
Dónde la voz on-premise se gana su lugar
Clínicas y consultas reguladas
Reservas fuera de horario, preguntas sobre seguros y horarios, y triaje seguido de transferencia, con cada grabación de llamada y cada palabra conservadas en su propio hardware. El encaje más limpio cuando los datos de los pacientes no pueden alojarse en una nube multiinquilino.
Concesionarios y grupos de concesionarios
Reserva de citas de taller, enrutamiento de llamadas entre varias sedes y captación de leads cuando todas las líneas están ocupadas. El agente resuelve la consulta rutinaria y deriva el resto al departamento adecuado.
Restaurantes y hostelería
Reservas, número de comensales y disponibilidad, preguntas sobre la carta y confirmaciones, para que el teléfono deje de apartar al personal de la sala durante las horas punta.
Recepción fuera de horario y desbordamiento
El motor económico es la llamada perdida: una parte importante de las llamadas entrantes llega fuera de horario o cuando la línea está ocupada, y la mayoría de las personas que llaman nunca vuelven a intentarlo. El agente cubre el desbordamiento y el horario no laborable, reserva o toma un mensaje, y escala cualquier asunto que lo requiera.
Las llamadas rutinarias, resueltas; las difíciles, transferidas
Reservar y reprogramar, enrutar llamadas, responder las preguntas que le hacen todo el día, recoger devoluciones de llamada y cubrir las horas que su equipo no puede. El modelo es híbrido por diseño: el agente gestiona de principio a fin la mayoría rutinaria de las llamadas y transfiere a una persona cualquier asunto que lo requiera, con el contexto ya recopilado. El razonamiento económico es sencillo: las llamadas que pierde fuera de horario o mientras todas las líneas están ocupadas son, en su mayoría, llamadas que nunca se vuelven a intentar.
Cada capa se ejecuta en hardware que usted controla
Speech-to-text (local)
faster-whisper como caballo de batalla: robusto en múltiples idiomas, incluido el turco, ejecutándose en su propia GPU. whisper.cpp es la alternativa por CPU cuando no hay tarjeta NVIDIA.
Alternancia de turnos e interrupción (local)
Silero VAD para la detección de voz, sumado al detector semántico de turnos de LiveKit, de modo que el agente entiende que «Necesito pensarlo…» no es el fin de un turno. Se ejecuta en CPU y sí cubre el turco, una ventaja real.
El modelo de diálogo (local)
Un LLM autoalojado (Qwen3 o un modelo de clase Llama de 8B) servido con vLLM para llamadas concurrentes, u Ollama para el caso sencillo de una sola línea, mantenido por completo en la VRAM de la GPU para que el bucle agéntico siga siendo rápido.
Text-to-speech (local)
Kokoro o Piper para voces locales aptas para uso comercial; XTTS-v2 para voces clonadas cuando la licencia lo permite. Esta es la capa con la salvedad honesta que detallamos más abajo.
Telefonía y el puente SIP
Un número de teléfono real mediante un troncal SIP (Twilio o Telnyx) conectado a un servidor de medios autoalojado: Asterisk, FreeSWITCH o LiveKit SIP. Conservamos su PBX actual y enrutamos al agente solo las líneas que usted decida.
Orquestación
LiveKit Agents o Pipecat unen toda la pipeline: transmiten cada etapa en streaming, gestionan las interrupciones y se ejecutan en hardware que es suyo. Podemos ejecutarlo en sus máquinas o, como opción managed-on-prem, en nuestro propio clúster de GPU de dos nodos (una RTX 4090 y una RTX 3060).
Lo que la voz on-premise (todavía) no puede hacer, dicho con claridad
La latencia es de ~0,5–1,2 segundos, no equivalente a la humana
Un stack local bien afinado se sitúa en torno a medio segundo o algo más de un segundo, de extremo a extremo. Es una alternancia de turnos natural e interrumpible, pero una persona deja una pausa de unos 200 ms, e incluso la voz en la nube más rápida ronda los 0,8–1,1 s. No le diremos que es indistinguible de una persona, porque no lo es.
El text-to-speech en turco es el eslabón débil
La voz turca local apta para uso comercial (Piper) suena más robótica; la más natural (XTTS-v2) lleva una licencia no comercial que requiere un acuerdo aparte antes de usarse en producción. El speech-to-text y la alternancia de turnos en turco son sólidos, pero en cuanto a la naturalidad del TTS preferimos ajustar las expectativas con honestidad antes que prometer de más.
El on-premise cambia la disponibilidad de la nube por el control de los datos
Las plataformas en la nube le ofrecen de serie una disponibilidad geo-redundante del 99,9 % o más. Ejecutar en su propio hardware significa que un fallo en sus instalaciones es un incidente real que hay que gestionar, y por eso el on-premise incluye un contrato de mantenimiento y monitorización, y una ruta de conmutación por error híbrida cuando se justifica.
A veces la nube es sencillamente la mejor opción
Por debajo de cierto volumen de llamadas, una plataforma gestionada en la nube es más barata y rápida de poner en marcha, y se lo diremos. El on-premise tiene sentido cuando la soberanía de los datos, la normativa o un volumen alto y sostenido son restricciones reales, no como opción por defecto para todo el mundo.
No vendemos «una IA que sustituye a su personal» ni una voz indistinguible de la de un humano: ninguna de las dos cosas es cierta, y lo descubriría en la primera llamada. Lo que construimos es un sistema de voz que es suyo: se ejecuta donde residen sus datos, gestiona la carga rutinaria y es honesto sobre dónde se detiene y una persona toma el relevo.
Privacidad por reducción: como el audio nunca sale de su red, no hay ningún procesador externo en el circuito ni ninguna grabación de sus llamadas en la nube, la vía más limpia bajo las normas de residencia de datos. Se trata de voz on-premise / con capacidad offline, y convive con nuestros demás sistemas agénticos on-premise. Es una capacidad distinta de nuestro CRM inmobiliario on-premise, que hace inteligencia documental y no tiene ningún componente de voz.
Respuestas directas
¿En qué se diferencia esto de Vapi, Retell o ElevenLabs?
Son plataformas en la nube excelentes y muy rápidas de desplegar; no vamos a fingir que las superamos en comodidad inmediata ni en naturalidad pura de la voz. Nuestra ventaja es otra: toda la pipeline se ejecuta en su hardware, de modo que el audio, las transcripciones y los datos de quien llama nunca salen de su red. Si su motivo para no adoptar la voz era «no voy a poner las grabaciones de mis llamadas en una nube multiinquilino estadounidense», ese es exactamente el hueco en el que trabajamos.
¿Pensarán quienes llaman que es una persona real?
No, y no lo afirmaremos. Una persona deja una pausa de unos 200 ms en la conversación; un stack local bien afinado se sitúa en torno a 0,5–1,2 segundos de extremo a extremo. Es una alternancia de turnos natural e interrumpible, no una suplantación humana. El planteamiento honesto es un agente que gestiona con soltura la mayoría rutinaria de las llamadas y pasa las difíciles a una persona.
¿Y el turco?
Seremos claros: el text-to-speech en turco es hoy el eslabón débil. La opción local apta para uso comercial (Piper) suena más robótica, y la opción local más natural (XTTS-v2) lleva una licencia no comercial que requiere un acuerdo aparte para usarse en producción. El speech-to-text en turco es sólido con la familia Whisper, y el modelo de alternancia de turnos sí cubre el turco, pero en cuanto a la naturalidad del TTS ajustamos las expectativas con honestidad antes que prometer de más.
¿Cuál es la pega de ejecutarlo on-premise?
El on-premise cambia la escalabilidad instantánea y la geo-redundancia de la nube por un control de los datos que de verdad es suyo, y añade una carga de mantenimiento. Una plataforma en la nube ofrece una disponibilidad del 99,9 % o más en varias regiones; un fallo de hardware en sus instalaciones es un incidente real que alguien tiene que gestionar. Lo cubrimos con un contrato de monitorización y mantenimiento, y una ruta de conmutación por error híbrida cuando tiene sentido. Por debajo de cierto volumen de llamadas, la nube es sencillamente más barata, y se lo diremos cuando ese sea su caso.
¿Cómo lo cobran?
El on-premise da la vuelta al modelo de la nube por minuto. En lugar de pagar por minuto, paga una tarifa única de construcción e integración (diseño del flujo de llamadas, integración SIP en su PBX actual, selección y ajuste del modelo, lógica de transferencia, despliegue) y, después, una cuota mensual fija o por capacidad de línea, porque la computación es propia, no medida, además de un contrato de mantenimiento y monitorización. El coste por minuto del operador de la PSTN es inevitable y se traslada al cliente. Presupuestamos por proyecto una vez entendido el flujo de llamadas; no hay precio de lista.
¿Es lo mismo que su CRM inmobiliario?
No, son cosas distintas. Nuestro CRM inmobiliario on-premise hace inteligencia documental y recuperación; no tiene ningún componente de voz ni de telefonía. Los agentes de voz son una capacidad aparte: un sistema nuevo, construido en torno a su flujo de llamadas, que es suyo y se ejecuta donde residen sus datos. No proyecte la voz sobre el CRM, ni el CRM sobre esto.
Last reviewed:
Cuéntenos cómo es su flujo de llamadas
Cuéntenos dónde duele el teléfono (reservas perdidas fuera de horario, desbordamiento en las líneas ocupadas, preguntas rutinarias que consumen el día de su equipo) y dimensionaremos un agente de voz on-premise en torno a su flujo de llamadas real. El precio es por proyecto, presupuestado una vez entendido el trabajo.
