为何我们需要世界模型来取代 Chatbot

三年过去了，模型能力提升了 100 倍，为什么 AI 还是一个聊天框？

我做 AI 产品这两年越来越确信一件事：聊天框就是 AI 时代的诺基亚。

它不过是我们接触到的第一代 AI，未来一定会被其他更高维度的产品所取代。

一、第一代 AI：聊天框——写提示词

普通人用不好 AI，不是 AI 太蠢，而是用户不知道自己该问什么、怎么问。

我举个例子你就明白了。

AI 出来之前，有一句话特别流行——"百度一下不会吗？"

在搜索引擎已经出现了十几年之后，仍然有大量普通人没有能力把自己想搜的东西总结成关键词。这说明"把一个问题拆成 3-5 个关键词去搜"这件事是有门槛的；而写出一段"完整 context + 清晰目标 + 可验证测试"的 prompt 把需求完整描述给 AI，是更复杂的要求。

印证这一点的，正是市场上不计其数且销量优秀的 DeepSeek 课、豆包课。

因此我反复讲：普通人在 AI 使用上的真正困难，实际上在于准确表达需求——技术反而不是最大的难点。

Claude Code、Cursor 一眼就是给程序员用的界面，普通人看到 UI 就会直接关掉。豆包稍微好一点——但你去观察一下身边那些喊着要学 AI 的人，能把豆包用明白的都没几个。

他们不会追问，不知道怎么给上下文，甚至一开始就没想清楚要做什么，AI 答偏了也不知道怎么纠。一句换一句，双方都卡着。

一个产品火不等于它的形态对，用户的需求才是第一位。

直到 OpenClaw 的出现，AI Agent 的能力才从程序员那一小撮人里逐渐破圈，影响到大多数人。

二、第二代 AI：智能体——主动预判人类需求

OpenClaw 2025 年 11 月首发（最初叫 Clawdbot，2026 年 1 月改名 OpenClaw），3 个月冲破 10 万 GitHub Star——GitHub 史上 star 增长最快的开源项目。不需要 IDE，不用开 Terminal，甚至不用离开微信——在聊天工具里发一句话，AI 会自己去干活。

让 AI 扩圈的从来不是技术难度，是使用门槛。

OpenClaw 指出了一个方向，让 AI 拥有了主动做事的能力。

你早上醒来——龙虾替你收集好了今天的重要新闻，写成分析报告给你审阅。

你开完会——龙虾自动总结了会议纪要，并且为你标注了重点。

这使得用户能用更少的提示词去完成更多的任务，提高效率的同时，大大降低了使用门槛和心智负担。

但这还不够。目前各种工作仍然需要使用者大量的主动规划，用户真正需要的是傻瓜式智能体——什么都不说，AI 就知道你要干嘛。

这件事听起来不可思议，但其实这个概念已经部分实现了，我们最熟悉的就是 Computer Use。

最早的 C 端产品是 Anthropic 在 2024 年 10 月发布的，他们给 Claude 加了一个很酷的能力——让 AI 看你的屏幕截图、像人一样挪动鼠标、敲你的键盘。你丢一个任务过去，它自己打开应用、自己在网页上找信息、自己填表、自己点提交。

2025 年 1 月，OpenAI 跟上，发布 Operator——一个"AI 自己的浏览器"，能像人一样读页面、点按钮、填表单。同年 7 月，Operator 整合进 ChatGPT，升级为 ChatGPT Agent。

与此同时，Perplexity Comet 这样的产品开始尝试把 AI 和浏览体验更深地结合：不只是搜索答案，而是帮你整理信息、比较选项、给出下一步建议。

Human Security 的数据更直接——2025 年 7 月以来，agentic browser 产生的网络请求流量涨了 6900%。AI 在以前所未有的速度接管人类的屏幕操作。

2026 年 3 月 Anthropic 把 Computer Use 又往前推了一步：支持后台并行任务、scheduled tasks、Dispatch 功能——“你出门吃饭，AI 替你继续干活”。

这些产品的共同方向是：

AI 不再只是等你提问，而是通过监控你的行为来理解你的需求：

能理解你正在看的页面
能基于上下文回答问题
偶尔帮你执行一些简单操作

但你可以想象：

真正成熟的 Computer Use Agent 能够长期监控你的电脑屏幕；
静默运行，并且实时判断你接下来可能会碰到的问题；
一旦检测到潜在问题，就弹出几个推荐解决方案，用户选择后自动执行。

再也不用遇到问题就打开 chatbot，抓耳挠腮地想提示词怎么描述问题，然后一步一步看懂 AI 给的解决方案再自己照着做。

不过这个技术现在依然不成熟：速度慢、稳定性差、对页面变化非常敏感，也很难处理复杂流程。并且还有两个关键问题待解决：

隐私问题：AI 必须知道你看了什么、点了什么、犹豫了什么、甚至复制了什么。这几乎等于全量用户行为监控。
性能 & 成本：实时 AI 推理意味着每个页面都要分析，每个动作都要推理。按照当前模型性能，延迟过高，token 消耗的成本也过高，得不偿失。

只要模型继续进化、这些问题在未来能够解决，Computer Use 就会成为让普通人不需要写提示词就能使用 AI 的技术。

但 Computer Use 仍然有它的局限性——你只能在电脑上使用 AI。一旦脱离了电脑屏幕，AI 要如何主动预判你的下一个潜在需求？

一个困在屏幕里的 Agent，知道全世界，但不够了解你。所以软件层走到这里，就必须把球传给硬件。

三、第三代 AI：可穿戴设备 + AI——了解你的一切

在说眼镜、手表、脑机这些具体产品之前，先说一个很多人还不清楚的原则——AI 的输出质量，很大程度取决于用户的输入质量。

现在那些把 AI 用得飞起的人，背后几乎都有一套完整的"第二大脑"——一个积累了几年甚至十几年的个人知识库，里面存着他所有的经验文章、项目文档、会议记录、代码库、甚至过往所有对话。他把这套东西喂给 AI，AI 就变成了"只为他一个人服务的版本"——知道他的偏好、知道他最常用的工具库、知道他的思维模式、知道他过去的一切。

因此大佬的 AI 就是比普通人的 AI 聪明。不是模型更强，是输入的素材质量更高，定制化程度更高。大佬的"小龙虾"就是比普通人的"小龙虾"更懂事。

如果普通人想要搭起一整套系统，今天还有三座大山：

硬件门槛——你得有台 Mac 或性能够好的电脑，装一堆工具、配一堆环境、连一堆 API，尝试本地部署大模型；
内容门槛——你得有长期写作和记录的习惯，并且把它们数字化、结构化。可事实是大部分人连写日记都坚持不了三天，工作文档一离职就丢，开会录音从来不留；
工程门槛——你需要有基本的 Agent 知识，能够自己搭建个人知识库、标准工作流，并且持续优化整套系统的配置。

这三件事加起来叠成了一堵墙，把 99% 的普通人和"高智能 AI"隔开了。

但如果我们逆转思路——把 AI “戴在身上"呢？

假设你戴着一副全天开机的 AI 眼镜、手腕上戴着 AI 手表、头上套着一顶能读注意力的帽子，它们会替你无痛无感地把"第二大脑"在云端建立起来。

你听到的、看到的、说过的、写下的、敲过的、甚至包括你的身体健康状况——全部自动转成文字、打标签、归档。

无需多久，每个人都会拥有一个专属的”数字孪生"——一份比你自己记性还全的人生档案。你无需临时憋一段 prompt 来让 AI 懂你——它就是你。

到了那天，今天网上那些收你钱教 prompt 工程、教 RAG、教搭第二大脑的课程会全部失效。因为你根本不需要"管理"知识库——所有输入输出自动同步到个人云端、自动分类、自动喂给 AI。

今天那些看起来"必须学"的技能，本质是 AI 普及之前的中间态技能——就像 2000 年学"怎么用诺基亚收发邮件"。

更让人兴奋的是，这件事已经有很多 startup 在做了，并且 C 端产品也开始陆续发布。

Limitless(Meta Acquired)、Bee(Amazon Acquired)、Omi —— 项链、手环、小夹子各种形态，今天已经戴在硅谷一批人的脖子、手腕、衣领上。形态各异，逻辑一致：戴一整天，自动录音 12 小时以上，晚上回家把一整天音频自动转文字、打标签、去重、归档进个人知识库。第二天你的 AI 就是带着"昨天你说过什么、听过什么、答应了谁什么"的上下文来陪你工作。

Limitless 发布时 24 小时收到 10,000 单预订。2025 年 12 月，Meta 把整个 Limitless 团队和技术买了下来，塞进 Reality Labs。

CES 2026 上一整排展台都是这类"随身记录你一生"的设备。有评论把这形容成"一场正在到来的 Black Mirror"，但更准确的说法是——这就是下一代 AI 产品形态里最容易被低估的那块拼图。

或许今天只有对 AI 敏感的那一小撮人在兴奋，但当年 GPT-3 不也是一样吗？一旦出现一个类似 ChatGPT 的杀手级产品，很快就会普及成为人人标配。

这才是硬件层真正要解决的问题——给 AI 一个入口，让它替你把生活记下来，让它真正理解你，成为你。

看懂了这件事，你再看眼镜、看苹果、看脑机，逻辑就完全不一样了。

第一条线索：智能眼镜

之前我写过一篇关于智能眼镜的文章《智能眼镜：你不能忽视的下一个万亿市场》，如果有兴趣可以看一看。

Meta 的 CTO Andrew Bosworth 今年在 a16z 博客上说了一句话：

“The next wave of consumer tech won’t run on taps and swipes—it’ll run on intent.” ——下一代消费电子不靠鼠标点击和手指滑动，靠大脑意图。

“按意图运行"——AI 要能见你所见、听你所听，才能在你开口之前替你做事。

眼镜是这件事最优雅的形态——离眼睛和耳朵最近、轻便、不占手、不挡视野，它看到的就是你看到的，它听到的就是你听到的。

Meta 自己是最激进的玩家，扎克伯格亲自下场推，不是没有理由——他赌的就是"下一个消费电子入口”。

第二条线索：苹果换帅

这也解释了为什么苹果 2026 年 4 月宣布换 CEO——John Ternus，硬件工程师出身，将在 9 月正式接班 Tim Cook。他过去在苹果负责的范围，涵盖了 iPhone、iPad、Mac、Apple Watch、AirPods 和 Vision Pro 的硬件工程团队。

《CNBC》的深度报道把这件事的信号讲得很清楚——AI 的差异化不再在 Cloud 规模和模型性能，而在设备上硅片和软件的一体化集成。

Ternus 接班这件事相当于苹果官方承认：未来十年苹果不和 OpenAI/Anthropic 比模型，苹果要把 AI 塞进你身上戴的每一个设备。

Vision Pro 2025 Q4 出货只有大约 45,000 台，不算成功。但苹果没有放弃空间计算，反而把 CEO 换成了硬件出身的人，并且打算在明年推出 AI 眼镜。

这就说明：虽然 Vision Pro 太重、太贵、生态不完善，但"空间计算 + 可穿戴 + AI“的方向是对的——苹果押的是 Ternus 在吸取 Vision Pro 的教训后能做得更好。

第三条线索：脑机接口

比智能眼镜更激进的是脑机接口。这个话题几年前还像是科幻，但现在已经有非侵入式 BCI（不开颅，戴个头环或帽子就行）出现了。

BrainCo——创始人韩璧丞，哈佛博士辍学创业，做医疗方向的脑机头环。2025 年 9 月推出 Revo2 智能仿生手——383 克、0.1 毫米精度、50 牛顿握力，截肢患者戴上可以弹钢琴。2026 年 1 月，BrainCo 的儿童 ADHD 治疗设备 Focus Xin 通过中国医疗器械批准，已经进入医院开卖。年初申请港股 IPO，估值超过 13 亿美金，是 BCI 行业里最早实现量产规模化的企业之一。
Sabi——这家加州 startup 2026 年 4 月刚结束 stealth，OpenAI 的早期投资人 Vinod Khosla 也为他们站台。Sabi 官方称采集了世界上最大的神经数据集，训练了最强的 Brain Foundation Model。他们将要发布的产品是一顶毛线帽（beanie）——里面塞了 7 万到 10 万个超密 EEG 传感器，能够直接解码你的内心：心里想一句话，屏幕上就打出来，不用开口、不用动手。初代在今年年底发布，下一代会是棒球帽，目标速度是 30 wpm——这个数字看起来比大多数人键盘打字速度慢，可一旦基础功能闭环之后性能就会快速提升。

有人说 Sabi 是"Neuralink 的非侵入式竞品”。我觉得说法反了——Neuralink 那种开颅+植入电极的路线注定是小众医疗，真正能走进每一个人头上的，只会是 Sabi 这种"戴一顶帽子"的日常产品。

一个已经进入医疗系统、一个带着 10 万传感器出货在即——脑机从"还要 10 年"压缩到"今年"，只用了两年。

这三条硬件线索——眼镜、苹果、脑机——看起来各走各的，其实在做同一件事：通过可穿戴设备，替 AI 把通往现实世界的腿接上。

但硬件这条路有一个致命瓶颈：云端 LLM 处理不了实时物理世界——延迟太高，模型也没建立物理直觉。

眼镜拍到的视频不可能每一帧都传回云端等 GPT 推理；脑机帽子读到的神经信号必须毫秒级响应，根本等不起网络延迟；手表的电池扛不住大模型的功耗。

所以硬件层的瓶颈又把球踢回了最底层——如果 AI 要进入万亿级的可穿戴设备，它必须是一种全新架构的 AI，一种能在本地芯片上跑的小 AI。

四、世界模型

世界模型是让 AI 能够理解物理世界的底层引擎。

眼镜拍到的每一帧画面、脑机帽子读到的每一条神经信号、手表每一毫秒的运动数据——如果全部回传云端等 GPT 处理，延迟会高到让整件事不成立。AI 还没回完"小心前面那辆车"，车已经撞上来了。

要实现真正无感的可穿戴 AI，只有一条路：世界模型。这就绕不开 Yann LeCun。

LeCun 2025 年 11 月离开 Meta——在 Meta 干了 10 多年、做到 Chief AI Scientist，还拿过 Turing Award。一个 65 岁的 AI 泰斗为什么要离职？因为他觉得 Meta 在一条错误的路上越走越远。

2026 年 1 月他接受《MIT Technology Review》访谈，原话是：

“LLMs are limited to the discrete world of text. They can’t truly reason or plan, because they lack a model of the world.” ——大语言模型被困在文本的离散世界里。它们没法真正推理或规划，因为它们没有关于世界的模型。

LeCun 在另一次访谈里说得更深——智能的本质不是"会说话"，是"能预判行动的后果"。你伸手去抓一个杯子之前，大脑已经仿真过这只手会怎么动、杯子会不会翻——这就是"世界模型"的含义。而 LLM 只学过词和词的关系，它不知道苹果会从树上掉下来、水不能往山上流。

他的另一句原话戳破了整个行业的自我催眠：

“Language turned out to be the easy part. The hard part is the physical world.” ——语言是容易的那部分。真正难的是物理世界。

所以你今天看到 AI 能通过考试、能写代码，却依然没有家用机器人、没有 L5 自动驾驶——按 LeCun 的判断，这是必然。当前这条 LLM 路线无法通向物理世界。

之后他在巴黎创立 AMI Labs，两个月融了 $1.03B，估值 $3.5B。

这不仅是 LeCun 一个人的信仰，风投市场在用真金白银押一条新路。2026 年世界模型领域已经出现多个玩家：

AMI Labs（LeCun）——$3.5B 估值
World Labs（李飞飞）——$5B 估值
Runway——$5.3B 估值

世界模型和大语言模型的区别在于：

大语言模型理解的是文本——哪个词后面该接哪个词。

世界模型学习的是物理世界的规则——物体不能穿墙、球扔出去会掉下来、水不会往山上流——让 AI 能够像人类一样通过视频快速理解物理世界。

2026 年 3 月，LeCun 团队发了一篇论文——

《LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels》 arxiv: 2603.19312

这篇论文解决了世界模型研究几年来的一个顽固问题——表征坍缩。

以前的世界模型会偷懒。它发现只要把所有输入都映射成同一个向量，训练目标就能轻松达到——于是它真这么干了，狗、车、人最后全被压成一模一样的向量，模型表面上在学习，实际上什么物理规则都不懂。

LeWM 用一个极其优雅的数学正则器（SIGReg）把这个问题解了：

15M 参数——比 GPT-4 小了 10 万倍
单张 GPU 几个小时训完
在机器人规划任务上，比主流基线快 48 倍

48 倍是什么概念？同样的规划任务，旧方法跑 47 秒，LeWM 只跑 0.98 秒。

LeWM 这篇论文本身的贡献，是把"端到端 JEPA 世界模型"这条路从"理论上可行"推进到了"工程上有起点"。虽然它本身不是一个能跑在眼镜里的产品级模型，但它是这条技术路线上的一个关键节点——证明了不靠预训练大模型也能稳定训出一个小型世界模型。

这是目前最有希望演化出端侧世界模型的技术路线——只要范式选对了，剩下的就是工程问题。

趋势已经足够明了：

未来的 AI 不是一个万能大脑，是两个分工不同的大脑。

大脑 A（LLM）——管语言、创意、推理，跑在云端
大脑 B（JEPA / 世界模型）——管物理、空间、感知

你的眼镜、你的脑机帽子、你未来身上所有可穿戴设备里，跑的都是大脑 B——它才是让 AI 无摩擦地进入人类生活最重要的底层引擎。

苹果换了硬件 CEO； Meta 一年卖出 700 万副智能眼镜；资本花百亿美金赌世界模型； BrainCo 的脑机接口已经在医院治 ADHD。

这四件看似无关的事，全都在暗示着 AI 未来的趋势——

提示词太难写 → 所以 AI 要主动预判 → 主动预判需要实时用户数据 → 数据需要可穿戴设备自动采集 → 大量数据需要世界模型消化。

AI 下一个十年的任务，是从聊天框走进每个人的生活中去。

一、第一代 AI：聊天框——写提示词#

二、第二代 AI：智能体——主动预判人类需求#

三、第三代 AI：可穿戴设备 + AI——了解你的一切#

第一条线索：智能眼镜#

第二条线索：苹果换帅#

第三条线索：脑机接口#

四、世界模型#

相关文章

评论

保持更新