AGENTES DE VOZ TELEFÓNICA ON-PREMISE

Un agente de voz IA que atiende sus teléfonos —ejecutándose en su propio hardware.

Agentes de voz con IA que atienden llamadas de negocio —reservas, enrutamiento, preguntas frecuentes, devoluciones de llamada— con cada segundo de audio permaneciendo en su propia red. Somos honestos con los límites: turnos de palabra naturales, no una imitación de humano.

Hablemos de su flujo de llamadas

Llamada de reserva entrante de ejemplo: audio + transcripción en directo y lectura de latencia (próximamente)

PARA QUIÉN ES

Dónde la voz on-premise se gana su lugar

Clínicas y consultas reguladas

Reservas fuera de horario, preguntas sobre seguros y horarios, y triaje con transferencia. El encaje más limpio cuando los datos de pacientes no pueden residir en una nube multiinquilino.

Concesionarios y grupos de concesionarios

Reserva de citas de taller, enrutamiento de llamadas entre varias sedes y captación de leads cuando todas las líneas están ocupadas. El agente resuelve la consulta rutinaria y deriva el resto al departamento adecuado.

Restaurantes y hostelería

Reservas, número de comensales y disponibilidad, preguntas sobre la carta y confirmaciones, para que el teléfono deje de apartar al personal de la sala durante las horas punta.

Recepción fuera de horario y desbordamiento

La mayoría de las llamadas perdidas nunca vuelven a sonar, y una gran parte de las entrantes llega fuera de horario o cuando todas las líneas están ocupadas. El agente cubre el desbordamiento, reserva o toma nota, y escala todo lo que de verdad importa.

QUÉ HACE

Las llamadas rutinarias, resueltas; las difíciles, transferidas

Reservas y cambios de cita, enrutamiento de llamadas, las preguntas que le hacen todo el día, devoluciones de llamada y las horas que su equipo no puede cubrir. El agente gestiona de extremo a extremo la mayoría rutinaria de las llamadas y transfiere a una persona todo lo importante, con el contexto ya recopilado.

EL STACK ON-PREMISE

Cada capa se ejecuta en hardware que usted controla

Speech-to-text (local)

faster-whisper como caballo de batalla: robusto en múltiples idiomas, incluido el turco, ejecutándose en su propia GPU. whisper.cpp es la alternativa por CPU cuando no hay tarjeta NVIDIA.

Alternancia de turnos e interrupción (local)

Silero VAD para la detección de voz más el detector semántico de turnos de LiveKit, de modo que el agente sabe que “tengo que pensarlo…” no es el final de un turno. Funciona en CPU y cubre el turco.

El modelo de diálogo (local)

Un LLM autoalojado (Qwen3 o un 8B de clase Llama) servido por vLLM para llamadas concurrentes, u Ollama para el caso sencillo de una sola línea, mantenido en VRAM para que el bucle agentic siga siendo rápido.

Text-to-speech (local)

Kokoro o Piper para voces locales aptas para uso comercial; XTTS-v2 para voces clonadas cuando la licencia lo permite. Esta es la capa con la salvedad honesta que detallamos más abajo.

Telefonía y el puente SIP

Un número de teléfono real vía un troncal SIP (Twilio o Telnyx) puenteado a un servidor de medios autoalojado: Asterisk, FreeSWITCH o LiveKit SIP. Su centralita existente se queda; solo las líneas que usted elija se enrutan al agente.

Orquestación

LiveKit Agents o Pipecat une el pipeline: transmite cada etapa en streaming y gestiona las interrupciones. Lo operamos en sus máquinas o, como opción gestionada, en nuestro propio clúster GPU de dos nodos.

LÍMITES HONESTOS

Lo que la voz on-premise (todavía) no puede hacer, dicho con claridad

La latencia es de ~0,5–1,2 segundos, no equivalente a la humana

Un stack local bien afinado se sitúa en torno a medio segundo o algo más de un segundo, de extremo a extremo. Es una alternancia de turnos natural e interrumpible, pero una persona deja una pausa de unos 200 ms, e incluso la voz en la nube más rápida ronda los 0,8–1,1 s. No le diremos que es indistinguible de una persona, porque no lo es.

El text-to-speech en turco es el eslabón débil

La voz turca local apta para uso comercial (Piper) suena más robótica; la más natural (XTTS-v2) lleva una licencia no comercial que requiere un acuerdo aparte antes de usarse en producción. El speech-to-text y la alternancia de turnos en turco son sólidos, pero en cuanto a la naturalidad del TTS preferimos ajustar las expectativas con honestidad antes que prometer de más.

El on-premise cambia la disponibilidad de la nube por el control de los datos

Las plataformas en la nube le ofrecen de serie una disponibilidad geo-redundante del 99,9 % o más. Ejecutar en su propio hardware significa que un fallo en sus instalaciones es un incidente real que hay que gestionar, y por eso el on-premise incluye un contrato de mantenimiento y monitorización, y una ruta de conmutación por error híbrida cuando se justifica.

A veces la nube es sencillamente la mejor opción

Por debajo de cierto volumen de llamadas, una plataforma gestionada en la nube es más barata y rápida de poner en marcha, y se lo diremos. El on-premise tiene sentido cuando la soberanía de los datos, la normativa o un volumen alto y sostenido son restricciones reales, no como opción por defecto para todo el mundo.

No vendemos “una IA que sustituye a su personal” ni una voz indistinguible de un humano: ninguna de las dos cosas es cierta, y usted lo descubriría en la primera llamada. Construimos para la carga rutinaria y somos honestos sobre dónde toma el relevo una persona.

Privacidad por reducción: como el audio nunca sale de su red, no hay ningún encargado de tratamiento externo en el circuito ni grabación de sus llamadas en la nube. Esto es voz on-premise capaz de operar sin conexión, y se sitúa junto a nuestros demás sistemas agénticos on-premise. Es una capacidad distinta de nuestro CRM inmobiliario on-premise, que hace inteligencia documental y no tiene ningún componente de voz.

PREGUNTAS

Respuestas directas

¿En qué se diferencia esto de Vapi, Retell o ElevenLabs?

Son plataformas en la nube excelentes y más rápidas de poner en marcha; no vamos a fingir lo contrario. Nuestra cuña: todo el pipeline funciona en su hardware, así que el audio, las transcripciones y los datos de quien llama nunca salen de su red. Si “ninguna grabación de llamadas en una nube multiinquilino” es su restricción, ese es el hueco en el que trabajamos.

¿Cómo lo cobran?

Por proyecto: no hay tarifa de catálogo. On-premise invierte el modelo por minuto de la nube: una tarifa única de construcción e integración y, después, una cuota plana mensual o por línea, porque el cómputo es propio, no medido. El coste por minuto del operador se repercute tal cual.

¿Cumple un agente de voz IA con el UK GDPR?

Puede serlo, y on-premise es el camino más limpio, porque no hay ningún encargado de tratamiento externo en el circuito. Usted sigue siendo el responsable del tratamiento: el aviso de grabación de llamadas, la retención y la base jurídica los fija usted. Nosotros construimos el sistema; la aprobación de cumplimiento sigue siendo suya.

¿Puede reservar citas y desviar llamadas?

Sí: ese es el núcleo: reservas y cambios de cita, enrutamiento de llamadas, preguntas frecuentes, devoluciones de llamada y cobertura fuera de horario o de desbordamiento, con todo lo importante transferido a una persona, con el contexto adjunto.

Last reviewed: 5 June 2026

¿LISTO PARA HABLAR?

Cuéntenos cómo es su flujo de llamadas

Díganos dónde duele el teléfono —reservas perdidas fuera de horario, desbordamiento en líneas ocupadas, preguntas rutinarias que devoran el día de su equipo— y delimitaremos un agente de voz alrededor de su flujo real de llamadas.

Solicitar presupuesto

Síguenos