登录

谷歌推出AI智能体,可浏览购物网站并代表用户采取行动


谷歌推出AI智能体,可浏览购物网站并代表用户采取行动 澎湃新闻记者 张静 2024-12-12 11:53 来源: 澎湃新闻

当地时间12月11日,谷歌发布最新大模型Gemini 2.0,推出AI智能体Mariner,可浏览电子表格、购物网站等,然后代表用户采取行动。

Gemini 2.0系列模型中的第一个模型是Gemini 2.0 Flash实验版,支持多模态输入和输出,例如可以直接生成图像与文本混合的内容,以及多语言文本转语音(TTS)音频。它还可以原生调用谷歌搜索、代码执行以及第三方用户定义的函数等工具。

谷歌CEO桑达尔·皮查伊(Sundar Pichai)表示,Gemini 2.0的高级推理能力将融入谷歌AI搜索功能AI Overviews,以攻克更复杂的主题和多步骤问题,包括高等数学方程、多模态查询和编程。Gemini 2.0能够构建新的AI智能体,从而离构建通用助手更进一步。“它们可以更多地了解你周围的世界,提前考虑多个步骤,并在你的监督下代表你采取行动。”

基于Gemini 2.0,AI智能体Mariner专为谷歌网络浏览器Chrome而扩展。谷歌项目经理杰克琳·孔泽尔曼(Jaclyn Konzelmann)表示,用户可以在浏览器中输入请求,然后让Mariner代表他们采取行动。Mariner的设计目的是“在有人参与的情况下”使用,它可以装满虚拟购物车,但实际上它不会购买,用户必须自己购买。

据《纽约时报》报道,谷歌正与公司外的少数测试人员分享Mariner,但尚未公布对公众发布的计划。孔泽尔曼承认,和其他聊天机器人一样,Mariner也会犯错,“这仍然是一项实验技术。”由于这类系统是根据大量数据中发现的模式而运行的,因此有时会出错。聊天机器人在生成文本时犯错有时会被忽视,但当系统试图使用网站并采取其他行动时,错误就更成问题了。

谷歌还展示了新版智能手机数字助手Project Astra,可对图像、文本、口头命令做出反应,但同样没有向公众开放。

与此同时,谷歌希望Chrome成为未来实现人工智能战略的重要平台。不过,美国司法部要求一名联邦法官强迫谷歌出售或分拆Chrome浏览器,此前谷歌的搜索引擎被裁定为非法垄断。

主题:谷歌|用户