Koca Ventures Ltd
71-75 Shelton Street
Covent Garden, London
WC2H 9JQ, United Kingdom
Registered in England & Wales16231043

AGENTIC AI 与本地化部署系统

驱动您业务运转的私有 AI 智能体,不止于收件箱

定制化的智能体 harness、Claude / OpenAI Agent SDK 部署、知识图谱与自托管推理——围绕团队现有工作流构建。涉及安全敏感场景的本地化边缘 AI,是我们的日常工作。

我们构建什么

六大模块,皆达生产级标准

01

定制化智能体 Harness

围绕您的工作流定制的智能体运行时——工具调用、记忆架构、重试语义与审批关卡,按您团队实际承担的工作类型设计。

02

Agent SDK 集成

基于 Claude Agent SDK、OpenAI Agents 框架与 MCP 的生产级部署——多智能体编排、工具使用、结构化输出,接入您现有的服务。

03

文档智能体 + 知识图谱

对您的合同、规格书、SOP 和 PDF 做带引用的 RAG——底层有嵌入式属性图层,让智能体能基于关系推理,而不只是文本块相似度。

04

数据与 CRM 流水线

为智能体供给结构化上下文的 ETL 与数据摄取流水线,外加 CRM 自动化——入站线索分配、咨询自动摘要和可靠的跟进工作流。

05

本地化 AI 部署

智能体跑在您的硬件上:自托管推理、本地加密存储、签名更新、基于角色的访问控制、审计日志。任何客户数据都不离开您的基础设施。

06

边缘 AI 与计算机视觉

NVIDIA Jetson Orin 部署、DeepStream 流水线、TensorRT/ONNX 优化与可离线运行——在摄像头近旁做 edge 推理,实时告警不依赖云。

旗舰应用场景

WhatsApp AI 运营管家

很多公司的日常运营早就跑在 WhatsApp 上:经理要进展,外勤发照片和语音,销售谈需求,采购报价格。确实快——但任务被刷走、责任人不明、跟进被遗忘。

Operations Organizer 是架在公司许可的 WhatsApp 频道之上的 AI 层,把非结构化对话转化为任务、提醒、摘要、决策和报告——不强迫团队学一个新应用。

01

AI 消息理解

自动将对话分类为任务、问题、审批、风险、客户需求、采购需求与排期更新。

02

语音与图像处理

转写语音消息,从图片和文档中提取有用信息,并将每一项关联到正确的项目、客户、团队或地点。

03

任务与跟进引擎

创建任务、指派负责人、追踪截止日期、提醒相关人员,并对被忽略或逾期的事项逐级上报。

04

日报与周报

为管理者生成精炼摘要:已完成的工作、待解决的问题、延误、风险、支出项、未处理的客户需求与团队表现。

05

企业知识记忆

一套可检索的内部记忆库(由 embedded property-graph 支撑),收录过往决策、反复出现的问题、客户历史、供应商备注与运营规律。

06

管理者仪表盘

一个基于 Web 的控制台,让管理层无需翻阅数百条消息,即可掌握各团队的动态。

管理者可向系统提出的问题

  • “今天哪些工作延误了?”
  • “谁在等待审批?”
  • “汇总本周所有现场进展。”
  • “哪些客户需求还没跟进?”
  • “根据昨天的 WhatsApp 消息生成一份任务清单。”
  • “列出已提及但尚未下单的采购项。”
安全可信度

边缘 AI 涉及安全敏感场景。我们也据此对待。

我们的安全研究因负责任地披露 Jetson 边缘 AI 平台中的一处漏洞,获得了 NVIDIA 的致谢。

这种深度贯穿每一次 edge AI 部署:默认 on-premise、加固的运行时、签名更新、设备身份——这些都是默认配置,不是事后补救。

部署模式

您的基础设施、您的数据、您的掌控。

  • · 摄像头视频流尽可能保留在本地。
  • · 文档索引存放于私有的向量与图谱存储中。
  • · 回答附带引用来源,以减少幻觉。
  • · 安全控制:网络隔离、加密存储、审计日志、签名更新、基于角色的访问控制。
  • · 外部 LLM API 为可选项——而非根基。
常见问题

Agentic AI 常见问题

什么是 Agentic AI 系统?

agentic AI 系统是指由 LLM 自主调用工具、读取数据、为目标执行多步工作流的软件——不是只会生成文本的聊天机器人。我们构建的系统能读文档、查数据库、建工单、调 API,全程处于结构化的人工审批之下。

这与聊天机器人有何不同?

聊天机器人回答问题;智能体执行动作。我们的 harness 包含工具调用、重试语义、记忆(通常是嵌入式属性图)、审批工作流,以及与您真实系统的集成——产出是完成的动作,而不只是屏幕上的回答。

我们能否在自己的服务器上运行?

可以——on-premise 部署是一等选项,不是退路:自托管推理(vLLM、Ollama、llama.cpp)、本地加密存储、签名更新、基于角色的访问控制。外部 LLM API 是可选项,不是地基。

你们用 Claude、GPT 还是本地模型?

哪个适合工作负载就用哪个。敏感的 on-premise 工作用 vLLM 提供本地模型(Llama、Qwen、Mistral);数据敏感度允许且推理难度高时,通过各自的智能体 SDK 接入 Claude 或 GPT。许多生产部署是混合架构。

为什么图谱层对文档智能体很重要?

只靠向量检索是不够的。我们为它配上嵌入式属性图层,让智能体能在毫秒级遍历“这份 RFI 对应这份规格书,归这位工程师负责,由他签批了这个版本”——本地运行,在您自己的基础设施上,无需另起一个外部图数据库服务。

一次典型的部署周期是怎样的?

围绕一个工作流的聚焦试点通常需要 4 周:需求调研、数据接入、demo 构建和路线图评审。完整生产部署取决于范围,一般在试点后 8–16 周。

Last reviewed:

准备好聊聊了吗?

从一个痛点开始

说一个最疼的工作流——工地进展更新、客户跟进、文档问答、采购乱局——在任何更大的承诺之前,我们先围绕您的真实数据做一个小 demo。