三年过去了,模型能力提升了 100 倍,为什么 AI 还是一个聊天框?

我做 AI 产品这两年越来越确信一件事:聊天框就是 AI 时代的诺基亚

它不过是我们接触到的第一代 AI,未来一定会被其他更高维度的产品所取代。


一、第一代 AI:聊天框——写提示词

普通人用不好 AI,不是 AI 太蠢,而是用户不知道自己该问什么、怎么问。

我举个例子你就明白了。

AI 出来之前,有一句话特别流行——"百度一下不会吗?"

在搜索引擎已经出现了十几年之后,仍然有大量普通人没有能力把自己想搜的东西总结成关键词。这说明"把一个问题拆成 3-5 个关键词去搜"这件事是有门槛的;而写出一段"完整 context + 清晰目标 + 可验证测试"的 prompt 把需求完整描述给 AI,是更复杂的要求。

印证这一点的,正是市场上不计其数且销量优秀的 DeepSeek 课、豆包课。

因此我反复讲:普通人在 AI 使用上的真正困难,实际上在于准确表达需求——技术反而不是最大的难点。

Claude Code、Cursor 一眼就是给程序员用的界面,普通人看到 UI 就会直接关掉。豆包稍微好一点——但你去观察一下身边那些喊着要学 AI 的人,能把豆包用明白的都没几个

他们不会追问,不知道怎么给上下文,甚至一开始就没想清楚要做什么,AI 答偏了也不知道怎么纠。一句换一句,双方都卡着。

一个产品火不等于它的形态对,用户的需求才是第一位

直到 OpenClaw 的出现,AI Agent 的能力才从程序员那一小撮人里逐渐破圈,影响到大多数人。


二、第二代 AI:智能体——主动预判人类需求

OpenClaw 2025 年 11 月首发(最初叫 Clawdbot,2026 年 1 月改名 OpenClaw),3 个月冲破 10 万 GitHub Star——GitHub 史上 star 增长最快的开源项目。不需要 IDE,不用开 Terminal,甚至不用离开微信——在聊天工具里发一句话,AI 会自己去干活。

让 AI 扩圈的从来不是技术难度,是使用门槛

OpenClaw 指出了一个方向,让 AI 拥有了主动做事的能力。

你早上醒来——龙虾替你收集好了今天的重要新闻,写成分析报告给你审阅。

你开完会——龙虾自动总结了会议纪要,并且为你标注了重点。

这使得用户能用更少的提示词去完成更多的任务,提高效率的同时,大大降低了使用门槛和心智负担。

但这还不够。目前各种工作仍然需要使用者大量的主动规划,用户真正需要的是傻瓜式智能体——什么都不说,AI 就知道你要干嘛

这件事听起来不可思议,但其实这个概念已经部分实现了,我们最熟悉的就是 Computer Use

最早的 C 端产品是 Anthropic 在 2024 年 10 月发布的,他们给 Claude 加了一个很酷的能力——让 AI 看你的屏幕截图、像人一样挪动鼠标、敲你的键盘。你丢一个任务过去,它自己打开应用、自己在网页上找信息、自己填表、自己点提交。

2025 年 1 月,OpenAI 跟上,发布 Operator——一个"AI 自己的浏览器",能像人一样读页面、点按钮、填表单。同年 7 月,Operator 整合进 ChatGPT,升级为 ChatGPT Agent

与此同时,Perplexity Comet 这样的产品开始尝试把 AI 和浏览体验更深地结合:不只是搜索答案,而是帮你整理信息、比较选项、给出下一步建议

Human Security 的数据更直接——2025 年 7 月以来,agentic browser 产生的网络请求流量涨了 6900%。AI 在以前所未有的速度接管人类的屏幕操作。

2026 年 3 月 Anthropic 把 Computer Use 又往前推了一步:支持后台并行任务、scheduled tasks、Dispatch 功能——“你出门吃饭,AI 替你继续干活”。

这些产品的共同方向是:

AI 不再只是等你提问,而是通过监控你的行为来理解你的需求

  • 能理解你正在看的页面
  • 能基于上下文回答问题
  • 偶尔帮你执行一些简单操作

但你可以想象:

  • 真正成熟的 Computer Use Agent 能够长期监控你的电脑屏幕;
  • 静默运行,并且实时判断你接下来可能会碰到的问题;
  • 一旦检测到潜在问题,就弹出几个推荐解决方案,用户选择后自动执行。

再也不用遇到问题就打开 chatbot,抓耳挠腮地想提示词怎么描述问题,然后一步一步看懂 AI 给的解决方案再自己照着做。

不过这个技术现在依然不成熟:速度慢、稳定性差、对页面变化非常敏感,也很难处理复杂流程。并且还有两个关键问题待解决:

  • 隐私问题:AI 必须知道你看了什么、点了什么、犹豫了什么、甚至复制了什么。这几乎等于全量用户行为监控。
  • 性能 & 成本:实时 AI 推理意味着每个页面都要分析,每个动作都要推理。按照当前模型性能,延迟过高,token 消耗的成本也过高,得不偿失。

只要模型继续进化、这些问题在未来能够解决,Computer Use 就会成为让普通人不需要写提示词就能使用 AI 的技术

但 Computer Use 仍然有它的局限性——你只能在电脑上使用 AI。一旦脱离了电脑屏幕,AI 要如何主动预判你的下一个潜在需求?

一个困在屏幕里的 Agent,知道全世界,但不够了解你。所以软件层走到这里,就必须把球传给硬件。


三、第三代 AI:可穿戴设备 + AI——了解你的一切

在说眼镜、手表、脑机这些具体产品之前,先说一个很多人还不清楚的原则——AI 的输出质量,很大程度取决于用户的输入质量

现在那些把 AI 用得飞起的人,背后几乎都有一套完整的"第二大脑"——一个积累了几年甚至十几年的个人知识库,里面存着他所有的经验文章、项目文档、会议记录、代码库、甚至过往所有对话。他把这套东西喂给 AI,AI 就变成了"只为他一个人服务的版本"——知道他的偏好、知道他最常用的工具库、知道他的思维模式、知道他过去的一切。

因此大佬的 AI 就是比普通人的 AI 聪明。不是模型更强,是输入的素材质量更高,定制化程度更高。大佬的"小龙虾"就是比普通人的"小龙虾"更懂事。

如果普通人想要搭起一整套系统,今天还有三座大山:

  • 硬件门槛——你得有台 Mac 或性能够好的电脑,装一堆工具、配一堆环境、连一堆 API,尝试本地部署大模型;
  • 内容门槛——你得有长期写作和记录的习惯,并且把它们数字化、结构化。可事实是大部分人连写日记都坚持不了三天,工作文档一离职就丢,开会录音从来不留;
  • 工程门槛——你需要有基本的 Agent 知识,能够自己搭建个人知识库、标准工作流,并且持续优化整套系统的配置。

这三件事加起来叠成了一堵墙,把 99% 的普通人和"高智能 AI"隔开了。

但如果我们逆转思路——把 AI “戴在身上"呢?

假设你戴着一副全天开机的 AI 眼镜、手腕上戴着 AI 手表、头上套着一顶能读注意力的帽子,它们会替你无痛无感地把"第二大脑"在云端建立起来

你听到的、看到的、说过的、写下的、敲过的、甚至包括你的身体健康状况——全部自动转成文字、打标签、归档。

无需多久,每个人都会拥有一个专属的”数字孪生"——一份比你自己记性还全的人生档案。你无需临时憋一段 prompt 来让 AI 懂你——它就是你。

到了那天,今天网上那些收你钱教 prompt 工程、教 RAG、教搭第二大脑的课程会全部失效。因为你根本不需要"管理"知识库——所有输入输出自动同步到个人云端、自动分类、自动喂给 AI。

今天那些看起来"必须学"的技能,本质是 AI 普及之前的中间态技能——就像 2000 年学"怎么用诺基亚收发邮件"。

更让人兴奋的是,这件事已经有很多 startup 在做了,并且 C 端产品也开始陆续发布。

Limitless(Meta Acquired)、Bee(Amazon Acquired)、Omi —— 项链、手环、小夹子各种形态,今天已经戴在硅谷一批人的脖子、手腕、衣领上。形态各异,逻辑一致:戴一整天,自动录音 12 小时以上,晚上回家把一整天音频自动转文字、打标签、去重、归档进个人知识库。第二天你的 AI 就是带着"昨天你说过什么、听过什么、答应了谁什么"的上下文来陪你工作。

Limitless 发布时 24 小时收到 10,000 单预订。2025 年 12 月,Meta 把整个 Limitless 团队和技术买了下来,塞进 Reality Labs

CES 2026 上一整排展台都是这类"随身记录你一生"的设备。有评论把这形容成"一场正在到来的 Black Mirror",但更准确的说法是——这就是下一代 AI 产品形态里最容易被低估的那块拼图

或许今天只有对 AI 敏感的那一小撮人在兴奋,但当年 GPT-3 不也是一样吗?一旦出现一个类似 ChatGPT 的杀手级产品,很快就会普及成为人人标配。

这才是硬件层真正要解决的问题——给 AI 一个入口,让它替你把生活记下来,让它真正理解你,成为你

看懂了这件事,你再看眼镜、看苹果、看脑机,逻辑就完全不一样了。


第一条线索:智能眼镜

之前我写过一篇关于智能眼镜的文章《智能眼镜:你不能忽视的下一个万亿市场》,如果有兴趣可以看一看。

Meta 的 CTO Andrew Bosworth 今年在 a16z 博客上说了一句话:

“The next wave of consumer tech won’t run on taps and swipes—it’ll run on intent.” ——下一代消费电子不靠鼠标点击和手指滑动,靠大脑意图。

按意图运行"——AI 要能见你所见、听你所听,才能在你开口之前替你做事。

眼镜是这件事最优雅的形态——离眼睛和耳朵最近、轻便、不占手、不挡视野,它看到的就是你看到的,它听到的就是你听到的。

Meta 自己是最激进的玩家,扎克伯格亲自下场推,不是没有理由——他赌的就是"下一个消费电子入口”。

第二条线索:苹果换帅

这也解释了为什么苹果 2026 年 4 月宣布换 CEO——John Ternus,硬件工程师出身,将在 9 月正式接班 Tim Cook。他过去在苹果负责的范围,涵盖了 iPhone、iPad、Mac、Apple Watch、AirPods 和 Vision Pro 的硬件工程团队。

《CNBC》的深度报道把这件事的信号讲得很清楚——AI 的差异化不再在 Cloud 规模和模型性能,而在设备上硅片和软件的一体化集成

Ternus 接班这件事相当于苹果官方承认:未来十年苹果不和 OpenAI/Anthropic 比模型,苹果要把 AI 塞进你身上戴的每一个设备

Vision Pro 2025 Q4 出货只有大约 45,000 台,不算成功。但苹果没有放弃空间计算,反而把 CEO 换成了硬件出身的人,并且打算在明年推出 AI 眼镜。

这就说明:虽然 Vision Pro 太重、太贵、生态不完善,但"空间计算 + 可穿戴 + AI“的方向是对的——苹果押的是 Ternus 在吸取 Vision Pro 的教训后能做得更好。

第三条线索:脑机接口

比智能眼镜更激进的是脑机接口。这个话题几年前还像是科幻,但现在已经有非侵入式 BCI(不开颅,戴个头环或帽子就行)出现了。

  • BrainCo——创始人韩璧丞,哈佛博士辍学创业,做医疗方向的脑机头环。2025 年 9 月推出 Revo2 智能仿生手——383 克、0.1 毫米精度、50 牛顿握力,截肢患者戴上可以弹钢琴。2026 年 1 月,BrainCo 的儿童 ADHD 治疗设备 Focus Xin 通过中国医疗器械批准,已经进入医院开卖。年初申请港股 IPO,估值超过 13 亿美金,是 BCI 行业里最早实现量产规模化的企业之一

  • Sabi——这家加州 startup 2026 年 4 月刚结束 stealth,OpenAI 的早期投资人 Vinod Khosla 也为他们站台。Sabi 官方称采集了世界上最大的神经数据集,训练了最强的 Brain Foundation Model。他们将要发布的产品是一顶毛线帽(beanie)——里面塞了 7 万到 10 万个超密 EEG 传感器,能够直接解码你的内心:心里想一句话,屏幕上就打出来,不用开口、不用动手。初代在今年年底发布,下一代会是棒球帽,目标速度是 30 wpm——这个数字看起来比大多数人键盘打字速度慢,可一旦基础功能闭环之后性能就会快速提升。

有人说 Sabi 是"Neuralink 的非侵入式竞品”。我觉得说法反了——Neuralink 那种开颅+植入电极的路线注定是小众医疗,真正能走进每一个人头上的,只会是 Sabi 这种"戴一顶帽子"的日常产品。

一个已经进入医疗系统、一个带着 10 万传感器出货在即——脑机从"还要 10 年"压缩到"今年",只用了两年

这三条硬件线索——眼镜、苹果、脑机——看起来各走各的,其实在做同一件事:通过可穿戴设备,替 AI 把通往现实世界的腿接上

但硬件这条路有一个致命瓶颈:云端 LLM 处理不了实时物理世界——延迟太高,模型也没建立物理直觉。

眼镜拍到的视频不可能每一帧都传回云端等 GPT 推理;脑机帽子读到的神经信号必须毫秒级响应,根本等不起网络延迟;手表的电池扛不住大模型的功耗。

所以硬件层的瓶颈又把球踢回了最底层——如果 AI 要进入万亿级的可穿戴设备,它必须是一种全新架构的 AI,一种能在本地芯片上跑的小 AI


四、世界模型

世界模型是让 AI 能够理解物理世界的底层引擎。

眼镜拍到的每一帧画面、脑机帽子读到的每一条神经信号、手表每一毫秒的运动数据——如果全部回传云端等 GPT 处理,延迟会高到让整件事不成立。AI 还没回完"小心前面那辆车",车已经撞上来了。

要实现真正无感的可穿戴 AI,只有一条路:世界模型。这就绕不开 Yann LeCun。

LeCun 2025 年 11 月离开 Meta——在 Meta 干了 10 多年、做到 Chief AI Scientist,还拿过 Turing Award。一个 65 岁的 AI 泰斗为什么要离职?因为他觉得 Meta 在一条错误的路上越走越远。

2026 年 1 月他接受《MIT Technology Review》访谈,原话是:

“LLMs are limited to the discrete world of text. They can’t truly reason or plan, because they lack a model of the world.” ——大语言模型被困在文本的离散世界里。它们没法真正推理或规划,因为它们没有关于世界的模型。

LeCun 在另一次访谈里说得更深——智能的本质不是"会说话",是"能预判行动的后果"。你伸手去抓一个杯子之前,大脑已经仿真过这只手会怎么动、杯子会不会翻——这就是"世界模型"的含义。而 LLM 只学过词和词的关系,它不知道苹果会从树上掉下来、水不能往山上流

他的另一句原话戳破了整个行业的自我催眠:

“Language turned out to be the easy part. The hard part is the physical world.” ——语言是容易的那部分。真正难的是物理世界。

所以你今天看到 AI 能通过考试、能写代码,却依然没有家用机器人、没有 L5 自动驾驶——按 LeCun 的判断,这是必然。当前这条 LLM 路线无法通向物理世界

之后他在巴黎创立 AMI Labs,两个月融了 $1.03B,估值 $3.5B

这不仅是 LeCun 一个人的信仰,风投市场在用真金白银押一条新路。2026 年世界模型领域已经出现多个玩家:

  • AMI Labs(LeCun)——$3.5B 估值
  • World Labs(李飞飞)——$5B 估值
  • Runway——$5.3B 估值

世界模型和大语言模型的区别在于:

大语言模型理解的是文本——哪个词后面该接哪个词。

世界模型学习的是物理世界的规则——物体不能穿墙、球扔出去会掉下来、水不会往山上流——让 AI 能够像人类一样通过视频快速理解物理世界。

2026 年 3 月,LeCun 团队发了一篇论文——

《LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels》 arxiv: 2603.19312

这篇论文解决了世界模型研究几年来的一个顽固问题——表征坍缩

以前的世界模型会偷懒。它发现只要把所有输入都映射成同一个向量,训练目标就能轻松达到——于是它真这么干了,狗、车、人最后全被压成一模一样的向量,模型表面上在学习,实际上什么物理规则都不懂。

LeWM 用一个极其优雅的数学正则器(SIGReg)把这个问题解了:

  • 15M 参数——比 GPT-4 小了 10 万倍
  • 单张 GPU 几个小时训完
  • 在机器人规划任务上,比主流基线快 48 倍

48 倍是什么概念?同样的规划任务,旧方法跑 47 秒,LeWM 只跑 0.98 秒。

LeWM 这篇论文本身的贡献,是把"端到端 JEPA 世界模型"这条路从"理论上可行"推进到了"工程上有起点"。虽然它本身不是一个能跑在眼镜里的产品级模型,但它是这条技术路线上的一个关键节点——证明了不靠预训练大模型也能稳定训出一个小型世界模型

这是目前最有希望演化出端侧世界模型的技术路线——只要范式选对了,剩下的就是工程问题

趋势已经足够明了:

未来的 AI 不是一个万能大脑,是两个分工不同的大脑

  • 大脑 A(LLM)——管语言、创意、推理,跑在云端
  • 大脑 B(JEPA / 世界模型)——管物理、空间、感知

你的眼镜、你的脑机帽子、你未来身上所有可穿戴设备里,跑的都是大脑 B——它才是让 AI 无摩擦地进入人类生活最重要的底层引擎


苹果换了硬件 CEO; Meta 一年卖出 700 万副智能眼镜; 资本花百亿美金赌世界模型; BrainCo 的脑机接口已经在医院治 ADHD。

这四件看似无关的事,全都在暗示着 AI 未来的趋势——

提示词太难写 → 所以 AI 要主动预判 → 主动预判需要实时用户数据 → 数据需要可穿戴设备自动采集 → 大量数据需要世界模型消化

AI 下一个十年的任务,是从聊天框走进每个人的生活中去