登录

OpenAI、谷歌“掰手腕”大模型给人工智能装上“眼睛耳朵嘴巴”


速读:而就在前一天,ChatGPT的开发公司OpenAI的首席技术官米拉・穆拉提(MiraMurati)进入直播室,发布了OpenAI的春季大更新,包括桌面版本的ChatGPT,以及可实时进行音频、视觉和文本推理的最新旗舰大模型GPT-4o。 从“你的快乐伤悲它能体会”到“你的快乐伤悲它能体会并给出及时回应”,人工智能大模型的响应时间的缩短让人机交互更加丝滑。 “GPT-4o不仅能够理解用户的语气,还能做到恰到好处的反应。 在OpenAI发布会上,人们见到了GPT-4o更快的响应速度:能够在短至232毫秒内响应音频输入,平均响应时间为320毫秒,与人类在对话中的反应速度几乎一致。
2024-05-15 21:32:43 来源:央广网

央广网北京5月15日消息(记者 牛谷月)北京时间15日凌晨1点,谷歌召开年度I/O开发者大会。根据谷歌官方统计,在这场110分钟演讲中,谷歌CEO桑达尔・皮查伊(Sundar Pichai)提及AI的次数高达121次,同时推出了一系列以AI为核心的产品和服务。而就在前一天,ChatGPT的开发公司OpenAI的首席技术官米拉・穆拉提(Mira Murati)进入直播室,发布了OpenAI的春季大更新,包括桌面版本的ChatGPT,以及可实时进行音频、视觉和文本推理的最新旗舰大模型GPT-4o。Google新发布的“AI全家桶”,更被视作是对GPT-4o的回击和“叫板”。

人类对AI的探索如火如荼,人机交互再次大迈步,打破了传统“语音助手”的桎梏。大模型就像给AI装上了“眼睛耳朵嘴巴”,从此你的快乐伤悲它都能“体会”。未来已经来临了吗?

“读取人类情绪”――向更自然的人机交互迈进一步

在OpenAI的春季发布会上,虽然大家没能见到GPT-5,但GPT-4o的出现仍然惊艳。据OpenAI官网介绍,GPT-4o中的“o”代表“Omni”,这是一个基于GPT-4之上的多模态大模型。

OpenAI称,它向更自然的人机交互迈进了一步,因为它接受文本、音频和图像的任意组合作为输入内容,并生成文本、音频和图像的任意组合输出内容。

值得注意的是,GPT-4o能够与用户进行多样化的语气交互,并精准捕捉到用户的情绪变化。发布会上,OpenAI前沿研究部门主管陈信翰(Mark Chen)让GPT-4o聆听他的呼吸,聊天机器人侦测到他急促的呼吸,并且建议他不要“像吸尘器那样呼吸”,要放慢速度。随后Mark深呼吸一次,GPT-4o表示这才是正确的呼吸方式。同时,研究员巴雷特・佐夫(Barret Zoph)还演示了GPT-4o是如何通过前置摄像头观察用户的面部表情,分析其情绪的。

“GPT-4o不仅能够理解用户的语气,还能做到恰到好处的反应。”DCCI互联网研究院院长刘兴亮感慨道,“想象一下,GPT-4o在你紧张的时候能够安慰你,让你深呼吸,甚至开个小玩笑缓解你的压力。这种情感识别能力使得人机交互变得更加自然和亲切,仿佛我们身边有了一个懂我们心情的贴心朋友。”

而在一天后的谷歌I/O开发者大会上,谷歌紧跟其后,发布了一款名为Project Astra的谷歌AI助手。这款通用模型通过智能手机的摄像头捕捉并分析周围环境,还能与用户进行实时对话。在演示视频中,用户手持手机,将摄像头对准办公室的不同角落,并通过语言与系统进行交互。例如,当用户发出指令“请告诉我智能眼镜在哪里”时,Astra能够迅速识别物体,并与用户进行实时的语音交流。同时,当用户看向窗外,智能助手立刻就说出了用户的详细地址:“这儿显然是伦敦的国王十字路口区域。”它也可以理解绘画和图像,如可以对一个写在白板上的系统流程图给出意见“在服务器和数据库间添加缓存可以提高速度”。

DeepMind联合创始人兼首席执行官德米斯・哈萨比斯(Demis Hassabis)称,Project Astra是自己期待了几十年的AI助手的雏形,是通用AI的未来,“AI个人助理可以通过连续编码视频帧、将视频和语音输入组合到事件时间线中,并缓存这些信息以进行有效回忆,从而更快地处理信息。”

刘兴亮指出:“虽然OpenAI的GPT-4o在自然语言处理能力上表现强大,但谷歌在多模态理解、数据丰富性和开发者支持方面也展现了强劲的竞争力。两者在各自擅长的领域均有显著优势,并不断推动人工智能技术的发展。”

快速响应!――接近人类对话时的响应时间

从“你的快乐伤悲它能体会”到“你的快乐伤悲它能体会并给出及时回应”,人工智能大模型的响应时间的缩短让人机交互更加丝滑。

在OpenAI发布会上,人们见到了GPT-4o更快的响应速度:能够在短至232毫秒内响应音频输入,平均响应时间为320毫秒,与人类在对话中的反应速度几乎一致。“我们可以说GPT-4o是AI界的‘闪电侠’,速度快到令人发指。”刘兴亮分析,“相比之下,传统语音助手如Siri、Alexa以及各种‘同学们’在处理语音输入时,需要经过繁琐的音频转文本再转回音频的过程。而GPT-4o通过端到端的训练,直接处理所有输入和输出,实现了真正的毫秒级响应。”

记者了解到,在GPT-4o之前,使用ChatGPT的语音模式时,需要多个模型的接力处理:先将音频转换为文本,再进行“输入并输出文本”的处理,最后再将文本转换回音频。这种处理方式常导致信息的大量丢失,例如无法捕捉到语调、识别多个说话者或背景噪音,也无法生成笑声、歌唱或其他情感表达。而GPT-4o是OpenAI的首个整合文本、视觉和音频多模态输入与输出的模型。通过端到端地训练一个统一的新模型,实现了所有输入和输出的处理都由同一个神经网络完成。

360集团创始人、董事长周鸿t在其发表的视频中感慨:“这就带来了一个全新的体验,时延大概只有300毫秒左右,达到了人类和人类谈话的响应速度,这样不仅能听得懂你话里的情绪,在输出回答的时候也可以伴随着高兴、悲伤、失望、兴奋或者是更复杂的感情。”

国泰君安15日研报表示,GPT-4o作为基础性工具为更多创新应用提供了生长土壤。研报认为,对图像和视频的理解和高效的实时互动,一定程度对其他单一功能的AI软件有替代的可能性,GPTStore有望推出更多便捷应用,丰富应用商城生态。同时随着GPT在桌面端和移动端的持续渗透,AI助理应用有望更快普及,新型商业模式或将逐步推出。

主题:GPT-4o|用户|大模型