AI 原生交互

创建时间: 2026-05-06 来源: [[sources/040-手机AI与思维固化:为什么我们越来越不擅长思考?]] 相关: Agent-Native-InfrastructureAI-Gap-Filling-Not-CreationSoftware-3.0Cognitive-Rigidity-TechnologyTechnopoly-Attention-HijackingAgent-Paradigm-Shift


核心问题

AI 模型擅长并行多维度整合信息、预测意图、主动完成复杂任务。但当前的交互方式——基于手机、电脑的屏显设备和图形用户界面——已经过时,「把 AI 的能力关到了一个生锈的笼子里面」。

Anthropic CEO Dario Amodei 指出:当下 AI 应用的 UI 过度依赖文字和文本框交互,就像早期互联网倾向于拟物化设计一样,严重过时。

当前的 AI 交互存在根本的阻抗不匹配:用户既想要轻松省事的无缝执行,但一旦 AI 出错,又不得不回到对话框中逐步检查。就像雇了一个事事都要请示的新手,而非能独当一面的总管。

三个核心转向

1. 应用驱动 → 意图驱动

应用驱动:用户主动寻找工具完成任务(饿了 → 点外卖 → 打开 App → 搜索 → 下单)。

意图驱动:系统主动知道用户想要什么,用什么方式和工具完成任务是系统的事——用户不必在过程中花费心思。

Google 早期的 Digimine(「你是不是想搜」)是意图驱动的雏形:通过分析用户敲错的搜索词,分析行为背后真正的意图,直接连接到用户真正想要的信息。用户连 Google 都不想打开——他们只想要搜索结果中真正有用的信息,中间的一切环节只是不得不走的过程。

2. 单一模态 → 多模态融合

理想的多模态融合交互超越触控、语音、摄像头等单一模态,将视觉、语音、手势、眼动、触控、触觉全部整合,形成极其丝滑和直觉的交互模式。

例如:眼动操控移动光标,瞳孔聚焦选中对象,配合声音、手势和 AI 传感器完成交互——不需要具象光标,不需要触摸屏幕。

3. 被动响应 → 主动协作

有了多模态输入和意图揣摩能力,AI 系统可以主动分析用户需求,甚至提前完成。这就是 Always On ——实时在线。不用临时找手机、打开 App,AI 随时随地可用。

眼镜的佩戴位置天然支持这一点:摄像头、麦克风、眼动追踪与人的视野和听觉重合。眼睛注视的地方、头部的转向,都与人的意图绑定。

空间计算

空间计算是 AI 与现实融合的关键技术。与手机地图(GPS 投影在二维平面上)不同,空间计算让信息和现实实时对齐

AR 眼镜 + 高德地图可以在真实建筑外墙叠加名称标识,在空间中指引方向,无需低头看手机。

当 AI 有了与现实空间实时对齐的能力,几乎所有场景都可以用 AI + AR 融合方式重新做一遍,开创更高维度的信息处理方式。

Memex:精神原型

万尼瓦尔·布什在 1945 年构想的 Memex 是这一切的精神原型:

  • 帮助人掌握所有知识,通过思维与机器交互
  • 知识可以跳跃和相互链接(预言了超链接和互联网)
  • 额头佩戴摄像头,保存每天看到的场景(预言了 AR 眼镜)
  • 用户的阅读思考和灵感以联想路径存储

Memex → 道格拉斯·恩格尔巴特(图形界面/鼠标/超文本)→ 施乐/艾伦·凯 → 比尔·盖茨/乔布斯 → 今天的智能手机。媒介不只是信息的容器,更是思维的结构。

AI 眼镜:共识终端形态

AI + AR 眼镜基本符合 AI 原生交互的所有共识:

  • 感知能力集成在头部位置
  • 注视方向和头部转向与意图绑定
  • 反馈信息离眼睛和耳朵最近
  • 更容易做到 Always On

扎克伯格判断:当戴上 AI 眼镜的人的认知能力开始碾压不戴的人之后,眼镜自然会普及。

交互的终结

理想的 AI 体验不是建立在单纯的交互之上,而是专注于自身目标和意图,让设备随着思维悄无声息地完成工作。

当我们感受不到屏幕的存在的时候,才是我们的智能得到解放的开始。

屏幕只是一个中介。显示本身应该作为对真实环境和信息的补充,而不是把人变成屏幕的附属。

AI 可能恰恰会带来交互的终结。

参考资料

  • 来源:[[sources/040-手机AI与思维固化:为什么我们越来越不擅长思考?]]