前Liblib CTO创业,打造Agent时代的基础设施,可秒级调用上万种工具
现在,AI 正在变得越来越聪明,但是一个现实的问题是:重要的事情可以直接交给它去完成吗?
ChatGPT、豆包、元宝能帮你查天气、 订机票 ,但你敢用它做投资决策吗?问题的关键不在于现在的大模型不够强,而在于它们尚不具备真实世界的感知和行动能力。
需要了解的是,要想得到高质量的金融分析报告,仅靠大模型本身编码的静态知识是远远不够的,大模型需要像投研专家一样实时动态的获取最新的政策、新闻、产业链、舆情、行情等多维信息和数据,并使用专业的金融分析工具进行精密和精确计算,如此才能得到一份真正可用的金融分析报告。
而现实的问题是,现阶段大模型智商很高,具备强大的理解、分析和规划能力,但在现有的数字世界中“眼瞎手残 ” ,像被困在玻璃缸中的“缸中之脑 ” ,无法高效、便捷、低成本地感知和操作现实世界。
要有效解决这个问题,就需要为大模型接入一套感知和行动层的基础设施,让它成为在数字世界中无所不知、无所不能的真正的超级智能体。
一家名为 Qveris AI 的初创公司,聚焦于 Agent 时代的 Infra 层,正致力于为 Agent 设计原生搜索和行动路由引擎。据悉, 截至目前该公司已获得近千万元种子轮融资。
如果说具身智能是为 AI 安上了与现实世界交互的“身体 ” ,那么 Qveris AI 正在做的事就是给智能体(Agent)装上了数字世界的“眼、耳、手、脚 ” 。也就是说, 接入这套基础设施之后,大模型和智能体就能自己查数据、用工具,真正实现与现实数字世界的连接和互动。
“简单来理解我们做的事情,是构建 AI 时代可被大模型和智能体使用的所有开放服务、资源和能力的 AI-Ready 数字孪生引擎,帮助大模型和智能体在数字世界中快捷、高效、低成本、实时动态的搜索和调用所需的专业、权威、可信的数据和工具能力。 ” Qveris AI 创始人兼 CEO 王林芳告诉 DeepTech。
Agent 接不上真实世界,问题出在哪里?
互联网的数据与工具生态为人类设计,Agent 缺少统一、可信、标准化的供应层。从领域现状来看,不同的专家分散在不同的平台,例如金融、理财、计算等等。
举例来说,你要做金融投资,正在考虑买黄金、比特币、股票或债券。这是一项复杂的任务,即使人类去做也可能需要咨询各类专家,包括金融银行经理、理财经理、投资顾问,还可能需要去网络上看一些专家发言等作为参考资料。
现在人们常用的做法是:让大模型用深度研究(Deep Research)模式,或找专业的金融 Agent 帮忙做全面的信息调查和推荐建议。
那么问题来了:面对海量数据查询和对比、海量的免费和付费信息和跨供应商、跨平台的挑战,大模型的能力能行吗?实际上,Agent 现在仍处于技术的早期阶段,如果它拿不到真实、可信和高质量的数据,它生成的报告或未必正确,或质量水平很低。
尽管现阶段大模型性能高、能对话聊天,但当面临专业数据、专业工具甚至专业服务时,大模型的能力便“捉襟见肘 ” :即便是当下前沿团队开发的产品,能够调用的数据源和工具数量大概在数十个到百个,且搜集、对比、接入、评估、验证的难度、成本和时间周期都很高。
面对专业级别难度的问题,AI 极有可能因找不到实时、可信、权威、专业的数据,仅靠训练时的记忆给出推测的答案。所以,AI 最大的问题不是不够聪明,而是被困在“光说不练 ” 的世界里。这并不是某个模型、某个产品的单一局限性,而是当前整个 Agent 生态普遍面临的结构性问题。
AI 会思考,但缺一层“行动基础设施 ”
事实上,行业已经达成共识:大模型已经具备了惊人的“大脑 ” 思考能力,但极度缺乏感知和改变现实世界的“手脚 ” 。为了填补这一空白,市场正在经历从单一的技术探索向系统化基础设施建设的转变。放眼整体生态,目前主要存在三类关键的建设路径:标准协议层、模型算力层以及新兴的“行动基础设施 ” 层。
第一类是 标准协议层 ,以 Anthropic 等机构推出的 MCP(Model Context Protocol)为代表。这类协议制定了 AI 与世界沟通的语法规则 ,解决了如何连接 的标准化问题。但这仅仅是铺设了管道,管道中流动的内容——丰富、可用的工具资源,仍然处于匮乏状态。
第二类是 模型算力路由层 ,例如 OpenRouter。它们聚合了来自全球不同厂商的顶尖模型 API,解决了开发者获取智力资源的便利性问题。
“这类平台解决了‘大脑 ’ 的供给问题,属于核心算力层。但对于一个完整的 Agent 而言,光有大脑是不够的。 ” 王林芳表示,Agent 要真正落地,需要面对的是一个复杂、非标、数据分散的现实世界。而 Qveris AI 聚焦的正是模型之外的行动能力——将各行各业的技能与服务,转化为 AI 可理解、可调用的资产。
从技术演进的宏观视角来看,我们正处于一种全新的运行模式切换期: 互联网时代是“人类搜索+人类执行 ” ;大模型初期开启了“人类辅助+AI 生成 ” ;而现在,我们正在进入“Agent 自主资源调度+Agent 自主执行 ”的 新阶段。
然而,现有的互联网是为人类设计的,而非为 Agent 设计的。这导致了一个巨大的范式鸿沟(如下表所示):