AI 原生交互
创建时间: 2026-05-06
来源: [[sources/040-手机AI与思维固化:为什么我们越来越不擅长思考?]]
相关: Agent-Native-Infrastructure,AI-Gap-Filling-Not-Creation,Software-3.0,Cognitive-Rigidity-Technology,Technopoly-Attention-Hijacking,Agent-Paradigm-Shift
核心问题
AI 模型擅长并行多维度整合信息、预测意图、主动完成复杂任务。但当前的交互方式——基于手机、电脑的屏显设备和图形用户界面——已经过时,「把 AI 的能力关到了一个生锈的笼子里面」。
Anthropic CEO Dario Amodei 指出:当下 AI 应用的 UI 过度依赖文字和文本框交互,就像早期互联网倾向于拟物化设计一样,严重过时。
当前的 AI 交互存在根本的阻抗不匹配:用户既想要轻松省事的无缝执行,但一旦 AI 出错,又不得不回到对话框中逐步检查。就像雇了一个事事都要请示的新手,而非能独当一面的总管。
三个核心转向
1. 应用驱动 → 意图驱动
应用驱动:用户主动寻找工具完成任务(饿了 → 点外卖 → 打开 App → 搜索 → 下单)。
意图驱动:系统主动知道用户想要什么,用什么方式和工具完成任务是系统的事——用户不必在过程中花费心思。
Google 早期的 Digimine(「你是不是想搜」)是意图驱动的雏形:通过分析用户敲错的搜索词,分析行为背后真正的意图,直接连接到用户真正想要的信息。用户连 Google 都不想打开——他们只想要搜索结果中真正有用的信息,中间的一切环节只是不得不走的过程。
2. 单一模态 → 多模态融合
理想的多模态融合交互超越触控、语音、摄像头等单一模态,将视觉、语音、手势、眼动、触控、触觉全部整合,形成极其丝滑和直觉的交互模式。
例如:眼动操控移动光标,瞳孔聚焦选中对象,配合声音、手势和 AI 传感器完成交互——不需要具象光标,不需要触摸屏幕。
3. 被动响应 → 主动协作
有了多模态输入和意图揣摩能力,AI 系统可以主动分析用户需求,甚至提前完成。这就是 Always On ——实时在线。不用临时找手机、打开 App,AI 随时随地可用。
眼镜的佩戴位置天然支持这一点:摄像头、麦克风、眼动追踪与人的视野和听觉重合。眼睛注视的地方、头部的转向,都与人的意图绑定。
空间计算
空间计算是 AI 与现实融合的关键技术。与手机地图(GPS 投影在二维平面上)不同,空间计算让信息和现实实时对齐。
AR 眼镜 + 高德地图可以在真实建筑外墙叠加名称标识,在空间中指引方向,无需低头看手机。
当 AI 有了与现实空间实时对齐的能力,几乎所有场景都可以用 AI + AR 融合方式重新做一遍,开创更高维度的信息处理方式。
Memex:精神原型
万尼瓦尔·布什在 1945 年构想的 Memex 是这一切的精神原型:
- 帮助人掌握所有知识,通过思维与机器交互
- 知识可以跳跃和相互链接(预言了超链接和互联网)
- 额头佩戴摄像头,保存每天看到的场景(预言了 AR 眼镜)
- 用户的阅读思考和灵感以联想路径存储
Memex → 道格拉斯·恩格尔巴特(图形界面/鼠标/超文本)→ 施乐/艾伦·凯 → 比尔·盖茨/乔布斯 → 今天的智能手机。媒介不只是信息的容器,更是思维的结构。
AI 眼镜:共识终端形态
AI + AR 眼镜基本符合 AI 原生交互的所有共识:
- 感知能力集成在头部位置
- 注视方向和头部转向与意图绑定
- 反馈信息离眼睛和耳朵最近
- 更容易做到 Always On
扎克伯格判断:当戴上 AI 眼镜的人的认知能力开始碾压不戴的人之后,眼镜自然会普及。
交互的终结
理想的 AI 体验不是建立在单纯的交互之上,而是专注于自身目标和意图,让设备随着思维悄无声息地完成工作。
当我们感受不到屏幕的存在的时候,才是我们的智能得到解放的开始。
屏幕只是一个中介。显示本身应该作为对真实环境和信息的补充,而不是把人变成屏幕的附属。
AI 可能恰恰会带来交互的终结。
参考资料
- 来源:
[[sources/040-手机AI与思维固化:为什么我们越来越不擅长思考?]]