AI 原生交互

创建时间： 2026-05-06 来源： [[sources/040-手机AI与思维固化：为什么我们越来越不擅长思考？]] 相关： Agent-Native-Infrastructure，AI-Gap-Filling-Not-Creation，Software-3.0，Cognitive-Rigidity-Technology，Technopoly-Attention-Hijacking，Agent-Paradigm-Shift

核心问题

AI 模型擅长并行多维度整合信息、预测意图、主动完成复杂任务。但当前的交互方式——基于手机、电脑的屏显设备和图形用户界面——已经过时，「把 AI 的能力关到了一个生锈的笼子里面」。

Anthropic CEO Dario Amodei 指出：当下 AI 应用的 UI 过度依赖文字和文本框交互，就像早期互联网倾向于拟物化设计一样，严重过时。

当前的 AI 交互存在根本的阻抗不匹配：用户既想要轻松省事的无缝执行，但一旦 AI 出错，又不得不回到对话框中逐步检查。就像雇了一个事事都要请示的新手，而非能独当一面的总管。

三个核心转向

1. 应用驱动 → 意图驱动

应用驱动：用户主动寻找工具完成任务（饿了 → 点外卖 → 打开 App → 搜索 → 下单）。

意图驱动：系统主动知道用户想要什么，用什么方式和工具完成任务是系统的事——用户不必在过程中花费心思。

Google 早期的 Digimine（「你是不是想搜」）是意图驱动的雏形：通过分析用户敲错的搜索词，分析行为背后真正的意图，直接连接到用户真正想要的信息。用户连 Google 都不想打开——他们只想要搜索结果中真正有用的信息，中间的一切环节只是不得不走的过程。

2. 单一模态 → 多模态融合

理想的多模态融合交互超越触控、语音、摄像头等单一模态，将视觉、语音、手势、眼动、触控、触觉全部整合，形成极其丝滑和直觉的交互模式。

例如：眼动操控移动光标，瞳孔聚焦选中对象，配合声音、手势和 AI 传感器完成交互——不需要具象光标，不需要触摸屏幕。

3. 被动响应 → 主动协作

有了多模态输入和意图揣摩能力，AI 系统可以主动分析用户需求，甚至提前完成。这就是 Always On ——实时在线。不用临时找手机、打开 App，AI 随时随地可用。

眼镜的佩戴位置天然支持这一点：摄像头、麦克风、眼动追踪与人的视野和听觉重合。眼睛注视的地方、头部的转向，都与人的意图绑定。

空间计算

空间计算是 AI 与现实融合的关键技术。与手机地图（GPS 投影在二维平面上）不同，空间计算让信息和现实实时对齐。

AR 眼镜 + 高德地图可以在真实建筑外墙叠加名称标识，在空间中指引方向，无需低头看手机。

当 AI 有了与现实空间实时对齐的能力，几乎所有场景都可以用 AI + AR 融合方式重新做一遍，开创更高维度的信息处理方式。

Memex：精神原型

万尼瓦尔·布什在 1945 年构想的 Memex 是这一切的精神原型：

帮助人掌握所有知识，通过思维与机器交互
知识可以跳跃和相互链接（预言了超链接和互联网）
额头佩戴摄像头，保存每天看到的场景（预言了 AR 眼镜）
用户的阅读思考和灵感以联想路径存储

Memex → 道格拉斯·恩格尔巴特（图形界面/鼠标/超文本）→ 施乐/艾伦·凯 → 比尔·盖茨/乔布斯 → 今天的智能手机。媒介不只是信息的容器，更是思维的结构。

AI 眼镜：共识终端形态

AI + AR 眼镜基本符合 AI 原生交互的所有共识：

感知能力集成在头部位置
注视方向和头部转向与意图绑定
反馈信息离眼睛和耳朵最近
更容易做到 Always On

扎克伯格判断：当戴上 AI 眼镜的人的认知能力开始碾压不戴的人之后，眼镜自然会普及。

交互的终结

理想的 AI 体验不是建立在单纯的交互之上，而是专注于自身目标和意图，让设备随着思维悄无声息地完成工作。

当我们感受不到屏幕的存在的时候，才是我们的智能得到解放的开始。

屏幕只是一个中介。显示本身应该作为对真实环境和信息的补充，而不是把人变成屏幕的附属。

AI 可能恰恰会带来交互的终结。

参考资料

来源：[[sources/040-手机AI与思维固化：为什么我们越来越不擅长思考？]]

Notes Wiki

Explorer

AI-Native-Interaction