谷歌推出AI智能体，可浏览购物网站并代表用户采取行动

谷歌推出AI智能体，可浏览购物网站并代表用户采取行动澎湃新闻记者张静 2024-12-12 11:53 来源：澎湃新闻

当地时间12月11日，谷歌发布最新大模型Gemini 2.0，推出AI智能体Mariner，可浏览电子表格、购物网站等，然后代表用户采取行动。

Gemini 2.0系列模型中的第一个模型是Gemini 2.0 Flash实验版，支持多模态输入和输出，例如可以直接生成图像与文本混合的内容，以及多语言文本转语音（TTS）音频。它还可以原生调用谷歌搜索、代码执行以及第三方用户定义的函数等工具。

谷歌CEO桑达尔·皮查伊（Sundar Pichai）表示，Gemini 2.0的高级推理能力将融入谷歌AI搜索功能AI Overviews，以攻克更复杂的主题和多步骤问题，包括高等数学方程、多模态查询和编程。Gemini 2.0能够构建新的AI智能体，从而离构建通用助手更进一步。“它们可以更多地了解你周围的世界，提前考虑多个步骤，并在你的监督下代表你采取行动。”

基于Gemini 2.0，AI智能体Mariner专为谷歌网络浏览器Chrome而扩展。谷歌项目经理杰克琳·孔泽尔曼（Jaclyn Konzelmann）表示，用户可以在浏览器中输入请求，然后让Mariner代表他们采取行动。Mariner的设计目的是“在有人参与的情况下”使用，它可以装满虚拟购物车，但实际上它不会购买，用户必须自己购买。

据《纽约时报》报道，谷歌正与公司外的少数测试人员分享Mariner，但尚未公布对公众发布的计划。孔泽尔曼承认，和其他聊天机器人一样，Mariner也会犯错，“这仍然是一项实验技术。”由于这类系统是根据大量数据中发现的模式而运行的，因此有时会出错。聊天机器人在生成文本时犯错有时会被忽视，但当系统试图使用网站并采取其他行动时，错误就更成问题了。

谷歌还展示了新版智能手机数字助手Project Astra，可对图像、文本、口头命令做出反应，但同样没有向公众开放。

与此同时，谷歌希望Chrome成为未来实现人工智能战略的重要平台。不过，美国司法部要求一名联邦法官强迫谷歌出售或分拆Chrome浏览器，此前谷歌的搜索引擎被裁定为非法垄断。

主题：谷歌|用户