端侧模型会成为设备现场的「第一层智能」吗?

AI 助手正在离开单一聊天窗口,进入智能眼镜、车机、耳机和可穿戴设备。伴随模型离用户更近,指令的输入不再像整理好的提示词,而更像由摄像头、麦克风、屏幕、本地文件和本地权限共同组成的现场。在此趋势下,业界开始将端侧模型推到更靠前的位置,承担设备现场的「第一层智能」,把现场输入整理成应用能读取、系统能控制、后续模型能接手的任务。
目录
01. 为什么需要「第一层智能」?
设备输入和聊天窗口里的 prompt 有什么不同?为什么 AI 应用瓶颈不再只来自模型回答能力? ...
02 . 承担「第一层智能」的端侧模型需要补全哪些能力?
端侧模型要接住第一层处理,还需要补哪些输入、应用和系统能力? ?...
03 . 「第一层智能」之后,AI 硬件后续的推理交给谁?
第一层处理之后,端侧、边缘和云端又该如何分工? ...
为什么需要「第一层智能」?
1、近年来持续涌现的智能眼镜、车机、耳机和可穿戴设备都在把模型放到更靠近用户的位置,用户不再只是在聊天窗口里打字提问,而是在移动、驾驶、佩戴、拍摄和语音交互中调用 AI。[1-1] [1-2] [1-3]
① 智能眼镜会接触用户正在看见和听见的环境,手机会接触屏幕内容、通知、相册和本地文件,车机和可穿戴设备还会围绕位置、语音和传感器状态提供连续输入。
② 这些入口把 AI 放到更靠近用户的位置,也把输入变得更实时、更分散。
2、硬件入口变多以后,体验瓶颈不再只来自模型回答能力,也来自设备听取、识别、响应以及多模态信号串联。这些设备里的模型既可能在端侧运行,也可能调用云端,但设备交互里的噪声、时延、隐私和权限约束,会把更多第一步处理推向端侧模型。[1-1] [1-2] [1-3] [1-5]
① 云端模型仍适合复杂推理、长上下文和跨服务协作,端侧模型则更贴近摄像头、麦克风、屏幕、本地文件和本地权限。
② 硬件入口里的交互问题,正在把端侧模型从本地运行推向入口处理。唤醒、识别、过滤、权限判断和轻量动作先在设备端完成后,更复杂的任务再交给后续模型或应用流程。
3、硬件入口把问题带到更前一步,AI 首先要处理的是多模态输入如何变成明确任务。设备现场的「第一层智能」指的就是这一段初始处理,它先把零散、连续、带权限约束的输入整理成应用和后续模型可以承接的任务。[1-1] [1-2] [1-3] [1-5]
① 设备现场指设备入口持续接触、并且会影响任务判断的输入状态,包括环境状态、应用状态和权限状态。
② 聊天窗口里的 prompt 往往是用户已经整理过的表达,设备入口里的现场输入则常常是多模态、零散和连续变化的信号。
③ 例如一句语音、一段视线变化和一个手势可能共同构成同一条指令,模型需要先判断这些信号是否属于同一任务。
4、设备入口的原始输入如果直接进入后续模型,会把噪声、隐私、权限和时延约束一并带入后续处理。第一层处理的价值在于先完成理解、过滤和边界判断,再把输入变成可以执行、过滤或转交的任务。[1-1] [1-2] [1-3] [1-5] [1-8]
① 如果缺少这一步,后续模型接到的就不是清晰任务,而是一组带有噪声、权限和时延约束的原始信号。
② 输入语义不清会影响模型理解,权限边界不明会影响数据和动作控制,响应时延过高则会影响产品执行稳定性。
5、端侧模型适合承担初始处理角色的原因在于更贴近输入源、本地状态和设备权限。语音唤醒、屏幕理解、本地文件摘要等任务,往往先在设备端完成识别、摘要和权限判断,再把复杂请求交给后续模型处理。[1-3] [1-5] [1-8]
① 语音唤醒、屏幕理解和本地文件摘要不一定需要先把完整音频、页面或文件交给远端模型。
② 端侧先处理现场输入,云端再接手复杂推理、长上下文规划和跨服务协作。
承担「第一层智能」的端侧模型需要补全哪些能力?
模型能部署到设备上只是端侧部署的第一步。要承担设备现场的「第一层智能」,本地推理还需要接入设备输入、进入应用逻辑,并在功耗、内存、散热和时延限制下稳定工作。围绕这条设备侧处理流程,业界实践通常落在输入侧、应用侧和系统侧...
关注👇🏻 「机器之心PRO会员」,前往「收件箱」查看完整解读
主题:耳机和可穿戴设备