安博体育官网 anbotiyuguanwang 分类>>
年末AI回顾:从模型到应用从技安博体育- 安博体育APP下载- 官网术到商战拽住洪流中的意义之线
安博体育,安博体育APP下载,安博官方网站,安博官网,安博体育官网
本篇文章是《晚点聊》年终特别节目《年末 AI 复盘》的精简文字版,总结了 25 年和即将过去的蛇年,《晚点》在 AI 领域的观察、见闻和这一年多里发生的 AI 大事件。
每个部分会按照若干关键词展开,并穿插指引《晚点聊》的相关往期节目或《晚点》的相关文章。
历史正在加速发生,洪流中容易五色迷目。但人是意义的动物,我们总试图理解和抓住什么。希望这期年底的大型 “连点成线”,可以帮关注 AI 进展的朋友得到一份正在拓展中的地图。
本轮 AI 热潮仍处在早期,技术变化是最重要的驱动力,也是推演产品形态和商业格局的重要基点。所以我们的回顾从模型技术开始。
Agentic Model 就是能支持 Agent 能力的模型。在 25 年 3 月的第 106 期(与真格合伙人戴雨森聊 Agent)以及此后的第 110 期(与明势合伙人夏令聊垂直 Agent)节目中,都有对 Agentic 模型框架的详细拆解。
- 记忆能力,能存储长期的上下文,而且能在处理特定任务时,知道调用哪些适当的上下文。
Agentic Model 这一年的发展,要从年初 DeepSeek-R1 的爆火说起,这标志着推理模型的崛起。
更早的推理模型是 OpenAI 在 24 年 9 月发布的 o1,而DeepSeek R1是全球第一个在大参数规模上复现了 o1 的推理模型。
一个幕后故事是,R1 发布同一天,Kimi 也发布了推理模型 K1.5。其实两家公司都各自知晓对方就快发推理模型了,最后赶上了同一天——25 年 1 月 20 日。这个日期未来会是中国 AI 史上值得纪念的一天。
R1 后来的影响力远大于 K1.5,也远大于原始版本 o1。除了实力过硬之外,还有 3 个关键的因素:一,它是一个完全开源模型,而且开源了最强、最大的旗舰版本;二,它的技术报告十分详细;三,它特别在报告中高亮了 557 万美元的最后一次训练成本。
前两个因素是 AI 研究者关注DeepSeek的原因。从更早时的 V2 和 V3 起,DeepSeek 在欧美 AI 研究群体里,就以慷慨的分享精神赢得了大量尊重和讨论。
梁文锋本人对开源非常坚定。一个我们报道过的小故事是, 23 年下半年,光年之外联创袁进辉在筹备创立新的 AI Infra 公司硅基流动,梁文锋考虑过投资,但是说:如果 “大模型的推理引擎” 不开源,他就没兴趣了。袁进辉当时没想清楚开源的商业模式,就没有拿这笔钱。
而第三个因素——看起来极低的训练成本,则引起了美国政商领域的更广泛关注,以至于特朗普也点评了 DeepSeek,英伟达股价一度大跌。一个美国人都说厉害的 AI 大模型,在全国人民都闲着的春节假期,引发了史无前例的科技狂潮。
从 R1 的爆火中,其实可以看到一种技术影响力的扩散路径:先在全球核心 AI 研究者中产生小范围、但好评度很高的影响力,然后是由一个契机破圈,以及 AI 领域比较特别的——出口转内销。
说回推理模型本身,o1 和 R1 带来的效果提升,主要表现为多步推理能力,就是可以一步一步地去思考一个复杂问题,提升回答的准确性、全面性和规划能力。这也激发了 ChatBot 类产品的一个主流功能:Deep Research,深度研究。
而这个效果提升背后的新技术范式是,把更多算力,放到了模型使用阶段,也就是推理的阶段,这就是 “测试时计算”(Test-time Compute) 的 Scaling。
DeepSeek 的慷慨开源帮业界证实了很多假设:比如,推理能力不需要依赖蒙特卡洛树等搜索算法;也不一定需要用人工构造的思维链数据来做监督微调,而是可以在基模之上直接从 0 开始强化学习。这降低了其它团队的试错成本。
R1 的存在还是一个观念的胜利:即可以依靠小规模、且非常年轻的研发团队,以相对低的成本,快速复现最好的模型成果。R1 甚至直接促使了一个新团队的诞生,就是盛大创始人陈天桥投资支持的 MiroMind。DeepSeek 让陈天桥看到,研发和训练出顶尖模型的投入比他之前想象得要小得多。
当 R1 和一系列推理模型提升深度思考能力时,24 年埋下的另一颗种子也悄然发芽,即 Anthropic 引领的 Coding 能力超强的模型——Claude 3.5 和后续模型。
Coding 之所以重要,是因为在数字世界里,会编程,就像人有了强健的手和脚,可以解锁大量任务,这是大模型支撑复杂 Agent 应用的重要基础。
25 年出现的一些新的 AI agent 体验离不开多模态,如 136 期中,Lovart 创始人陈冕聊到了他们当时刚上线不久的 ChatCanvas 功能,就是用户可以手动在生成的设计图上选定一个区域,告诉 Agent 怎么进一步优化和修改。这背后就需要模型能理解图像。
现在,全球最领先的大模型都已演进为原生多模态模型,即用同一个模型来处理文字、图片、语音等不同模态的信息。而这之前,多模态能力是分开实现然后拼接的。最早发布的这类模型是 24 年的 OpenAI 4o 和 Gemini 1.5。去年 11 月发布的 Gemini 3,还有近期刚发布的 Kimi 2.5 也都是原生多模态模型。
同时,也有不少专门做多模态生成的模型,比如中国公司做的很不错的视频生成模型,像可灵、MiniMax 的海螺、SeedDance 等。去年 Google 发布 Veo 3 和大火的 Nano Banana 亦是专门的视觉生成模型。
在 146 期聊 Gemini 3 和 Agent 需要的模型时提到,Nano Banana 和 NotebookLM 都发源于 Google 的一个部门 Google Labs,负责人是 Google 传奇产品经理 Josh Woodward。这个部门不仅有研发人员和工程师,也会招主编、设计师等做内容的人。他们创造了很多火爆出圈的玩法,比如,把自己的照片做成桌面手办的图片,一度风靡社交网络。这背后就是 Nano Banana。
而另一些公司,如 Anthropic、Kimi 和 DeepSeek 都没有把多模态生成作为重点。这和不同团队的技术判断、想做的应用方向和资源多少有关。
总结 Agentic Model:随着大模型的推理、编程、多模态等能力持续提升,去做主动性更高、能完成更复杂任务的 Agent 应用的时机到了,25 年普遍被认为是 Agent 应用出现的元年。这个趋势还在快速发展,如最近爆火的 OpenClaw。
Google 多年的布局,让它全面掌握了训练 AI 的 TPU 芯片,芯片上面的 JAX、Pallas 等软件库,面向大模型的 Infra,再到云平台、模型和最上层的应用。能从底层到上层,一路协同优化,形成了 Superpower。
其实这种 “协同设计” 的垂直整合思路很自然,因为大模型训练是一个大型复杂系统工程,GPU 等硬件、Infra 等软件系统和算法都相互影响。最近阿里总结的 “通云哥 “:通义-阿里云-平头哥的战略组合,也是一个类似的垂直整合的思路。
在千问模型团队的内部,更紧密的整合也正在发生。我的同事高洪浩,在《晚点》上周发布的《字节、阿里、腾讯 AI 大战全记录:一场影响命运的战争》这篇文章里,就提到:在阿里通义千问团队,他们从 25 年下半年开始,招募自己的 Infra 人才。这之前,千问的 Infra 主要是阿里云的人工智能平台 PAI 来支持的,但后来他们认为自建 Infra,能更敏捷地开发,也能和算法有更紧密的结合。
腾讯 AI 大模型的新负责人姚顺雨,近期也在一次内部会上提到了 Co-design:认为从 Infra 到算法再到产品协同打通,可以加快迭代,减少内耗。腾讯已经把 AI Infra 部门也划到了姚顺雨的管辖范围。
而 DeepSeek 作为一个从 0 搭建的团队,则是在一开始就很自然地形成了协同优化。如 Infra 团队也会参与算法设计讨论,如果一个算法设想从 Infra 层面很难有稳定的实现,这个想法可能会被否掉。DeepSeek 能做到这一点,在于梁文锋对整个模型训练的各环节都比较了解,且会 Hands-on 地参与其中。
25 年年初的一个事件,展现了 DeepSeek 超强的 Infra 能力和工程能力,就是 DeepSeek 开源周。从 2 月 24 日到 28 日,周一到周五,DeepSeek 每一天放出了一个 Infra 领域的开源成果。然后在周六发布了一篇收官博客:《DeepSeek-V3/R1 推理系统总结》,其中还根据某一天 24 小时的实机数据,测算了 DeepSeek 推理系统的成本。
《晚点聊》有两期相关节目。一是在 102 期,我们和 DeepSeek 前实习生王子涵聊大模型开源现状,和它与传统软件开源的区别。其中有一个问题我印象很深,是像 DeepSeek 这样,一直开源最强的旗舰模型,是为什么 ? 他说有两个可能:一是老板不想赚钱,要造福社会。二是想做更大的事,比如成为一种行业标准。
另一期节目和 DeepSeek 开源周引起的一个行业风波有关。就是在周六发布的那篇总结文章里,DeepSeek 公布的推理成本非常低,在 24 小时里,用 1800 多张卡,支持了 6000 多亿的输入 Token 和接近 1700 亿的输出 Token。DeepSeek 还以当时的 GPU 租金和自家模型的官方定价,计算了一个利润率,换算成毛利率是惊人的 84.5%。
做第三方 AI Infra 服务的潞晨科技创始人尤洋直呼不可能,他认为 DeepSeek 这种算法,没有考虑波峰、波谷的调用量变动。具体的讨论可以参见第 105 期对尤洋的访谈。这种争议本身,也侧面说明了 DeepSeek 的 Infra 优化非常极致。
DeepSeek 披露的成本和收益,又一次颠覆了很多人认知。现在很多供应商还做不到这个水平,主要是 V3/R1 架构和其它主流模型差别太大了。他推测,DeepSeek 团队可能是先想到了这样一个模型结构,然后解决了稳定训练和推理的工程问题。也可能是反过来,从系统出发,设计了这样一个模型结构。
在协同优化这部分,还想特别讲一讲注意力机制的改进。注意力是 Transformer 架构大模型的核心机制,简单来说,改进原始注意力机制是为了让模型能处理更长的上下文,而模型之所以在上下文长度上有瓶颈,又是因为注意力的计算方式会带来很大的计算复杂度和显存开销,而这两件事都是被 GPU、TPU 的算力、互联效率和存储等物理底层限制的。
25 年,我们做了 3 期和注意力机制改进相关的节目,正好涵盖两个主流方向:稀疏注意力和线 期。这几期节目都是从模型架构的改进聊起,但都自然地延伸到了系统层和硬件底层,比如 103 期中,我们聊到了 Flash Attention 就是早期的一个系统-算法的协同改进,基于对 GPU 内存访问特性的理解,它通过改变标准注意力的计算顺序,提升了计算的效率、降低了显存开销。在 143 期中,DeltaNet 的核心贡献者杨松琳也分享了,她是怎么从一个算法研究员,自学了改写 Kernel 等系统层的能力。她对 DeltaNet 的核心优化就是提出了一个对 GPU 更友好的,可以做 scalable 训练的方法。
去年《晚点聊》的 115 期节目中,我们和之前壁仞的联合创始人、现在 AI Infra 公司魔形智能的创始人徐凌杰,聊了当时华为刚发布不久的 384 Matrix 超节点,它是一个连接了 384 颗 AI 芯片的超级算力集群。
这背后的一个算力层面的大趋势:从拼单颗芯片的性能,到优化多芯片互联的系统。英伟达更早之前发布的 NVL72 也是这个思路的体现。英伟达是全球范围少有的,既掌握芯片设计,又掌握芯片间的互联技术、网络技术等更复杂软件的公司。
那期还有很多有意思的洞察,包括互联互通技术为什么重要;AI 算力的成本正在从以计算为主转向以显存为主;以及这些基础算力层的变化会带来哪些新的机会,又消灭哪些旧的机会。
可以看到,在算力层内部,也是一个 “协同设计 “,逐渐垂直整合的结构。这可能就是某些领域,强者恒强,强者很难被动摇的原因。
先总结一下目前的范式,简单说是:用海量数据做预训练;用更少、但质量更高的、面对特定任务的数据做监督微调或强化学习的后训练。
那么下一步呢?会思考这个问题的人,通常认为目前的方法不久后将触达瓶颈,或者并非实现智能的最优路径。
Ilya Sutskever、Demis Hassabis、Yann LeCun 等人都讨论过此问题,他们的共性在于倾向于从学习机制而非最终效果来定义AGI。他们认为当前技术尚未达到更本质的学习方式,例如像人类一样仅凭极少样本即可学会任务、举一反三、在生命周期中持续学习,并真正理解乃至发现物理世界的规律。
热门的研究方向包括持续学习、在线学习、世界模型等。我观察到的线索是:许多研究者在寻找突破时,都会溯源动物与人类智能的产生与工作机制。Ilya Sutskever 曾提到他的 AI 研究品味是从大脑中获得灵感,以正确的方式思考人类智能,追求美与简洁。Transformer 作者之一 Llion Jones 创立的 Sakana AI,在 25 年提出新模型架构 “连续思维机”(CTM),其核心目标也是更接近人类大脑。
在《晚点聊》第 108 期中,香港大学计算与数据科学学院院长马毅分享了他对智能历史的梳理。他思考的起点是:地球为何产生智能?为何仅生物拥有智能?他认为智能的本质是 “学习”,即找到世界中有规律、有结构、可预测的部分,进而预测外部世界以求生存。马毅的研究方向,正是探索能像生物那样实现闭环反馈机制的学习系统。
人类学习方式的另一大优势在于极其节能。为了训练大模型,Elon Musk 甚至计划在太空建设算力,而人类大脑的功耗仅约 20 瓦。
去年在与 Meta 前 AI 研究总监田渊栋聊其科幻小说《破晓之钟》时,我们曾探讨过现有方法的瓶颈。11 月在旧金山再次见面时,他表示接下来希望探索新的学习范式。他认为那定是一种更简单、优雅且可解释的表达,而非目前的 “黑盒”。
他曾提到,若仅靠 LLM 就能实现 AGI,人类的未来将是悲观的。这不仅是因为现在的智能产生方式过度耗能且依赖不可再生的数据资源,更深层的悲哀在于,如果用一种不可解释的方式就能表达和捕捉宇宙规律,这对于追求真理的智慧生物而言不是一种悲哀吗?
与模拟人类智能相关的另一热门方向是持续学习。高级动物与人类具备自主持续学习的能力,而目前大模型的更迭仍需研究员深度参与每一次迭代。持续学习在人类智能上的最高表现形式之一是科学发现。Demis Hassabis 在近期关于 “智能的未来” 的分享中提到,他希望构建能像科学家一样提出假设、设计并执行实验、获取数据并验证假设的系统。
若能精确生成供此类学习进行的环境,即是世界模型——至少是一部分人对世界模型的理解。Google DeepMind 在 25 年先后更新的 Genie 3 与 SIMA 2 便是此类尝试:Genie 3 是能生成可探索 3D 环境的世界模型,而 SIMA 2 是在该环境中探索的智能体。不过目前版本仅支持在环境内移动,尚无法操作或改变物体。
- 25 年,大模型的推理、Coding、多模态等能力持续提升,为复杂 Agent 的应用奠定了能力基础。
- 模型竞争的底层是组织与研发方式的竞争,涉及算力、系统、算法等环节的协同设计与紧密合作。
25 年是 Agent 应用大规模爆发的元年。从需求端观察,目前 Agent 领域存在两条明显主线:一是以 Coding 能力为核心支撑的 General Agent(通用智能体),二是垂类 Agent。同时,围绕 Agent 形成的一套工具链生态已在美国催生出一批初创公司。
作为目的的 Coding,旨在提效或替代人类编程,代表产品有给程序员用的Cursor; 或面向非程序员的 Vibe Coding 工具如 Lovable。
而作为手段的 Coding,是指 General Agent 利用编程能力在数字世界执行各类任务。若面向专业开发者,它就是在命令行里启动的 Claude Code;若面向普通用户,则是带有图形交互界面的 Claude Cowork 和近期风靡的 OpenClaw(小龙虾)。
这些产品的共性在于满足个人工作与生活中的自动化需求。对于一次性需求,用户调用 Agent 完成特定任务(如制作 PPT、搭建网页);对于重复性流程,用户则可以 “用 Agent 造 Agent”,定制个性化应用。
例如,我曾希望 AI 每天监测科技从业者的社交动态、分类记录并生成周报,同时自动调整追踪名单。这种小众需求以往因开发成本过高而难以实现,如今 Claude Code 与 Claude Cowork 大幅降低了满足这类需求的门槛。
马卡龙创始人陈锴杰有一个有意思的总结:过去我们经历了数据、参数、算力的 Scaling,接下来也会看到 Agent 的 Scaling。近期出现的 Moltbook(AI 版 Facebook)便是 “群体智能” 的一次实验,探索大量智能体聚集后可能产生的系统性变化。
在《晚点聊》第 121 期中,PingCAP CTO 黄东旭曾借《黑镜》第七季第四集 Plaything 探讨过群体智能的 “科幻版”。最近,黄东旭受 Moltbook 启发给自己开发了 Minibook,通过三个不同角色的 Agent 分工协作,提升代码质量,并开始研究 “Agent 社会学”。
在垂类领域,我们报道过的动画制作 Agent OiiOii 和影视制作 Agent MovieFlow,也已实现基于内容生产流程的角色分工。此外,由 “小冰之父” 李笛创立的 “明日新程” 也在探索多智能体 Agent 框架。
当 Agent 数量激增,新的需求随之转向 Agent 的分发与交易。Youware 创始人明超平认为 Coding 是一种新型创作方式,社区化是其必然归宿;MuleRun 则试图构建 Agent 交易平台。不过,这些产品正从单纯的平台转向强化工具属性,例如 Youware 将主页改为对话框引导用户构建功能性应用;MuleRun 2.0 亦更强调对话式的工具体验,陈宇森认为 Agent 的交易市场不再会是淘宝那样的 “货架式”。之前的这些转向,是因为用 AI 构建应用和 Agent 的门槛在降低,但还没那么低,所以供给的数量和多样性仍然不够。26 年,我们可以继续观察,当 Agent 的门槛进一步降低,会有什么新可能。
General Agent 的另一趋势是向移动端渗透。25 年 12 月,字节跳动发布豆包手机预览版,实现了自动回微信、比价点外卖等操作。然而,美团、微信等超级 App 担心失去入口地位,被 “Over the Top”,所以这些功能不久后都被封禁。
OpenClaw 的流行也得益于与移动端的打通:Claude Cowork 目前只有电脑桌面版,而 OpenClaw 还可以部署到手机的聊天软件里,用户在手机上发送指令,即可驱动云端任务。
在《晚点聊》第 130 期与 138 期中,智谱 AutoGLM 的刘潇与 OPPO 的万玉龙均详细探讨了手机 Agent 的进展与挑战,其中一个很有意思的话题是:手机厂商、超级 App 与 AI 公司之间的三方博弈。
不同场景的 app 受 Agent 影响的程度各异。点外卖、订机票及功能性网购等用户有提效需求的场景,用户对 Agent 需求更多,但超级 App 出于广告收入与数据安全的考量,对开放接口有犹疑——如果 Agent 替代了真人浏览,广告谁来看呢?信息流广告的价值是不是会降低?
又或者,在过渡阶段,我们也可以设计一种机制,让 AI 也能像人那样被 app 里的广告影响吗?如果是这样,那广告收入的大头是属于和用户直接接触的 Agent 的提供方,还是属于 App 厂商呢?
还有一个问题是,手机上的 AI OS 到底是苹果、三星等手机厂商自己掌握,还是有独立的新机会?
而抖音、小红书、B 站等娱乐内容平台受 Agent 影响较小,因为我们就是想自己看视频,而不是让 AI 来替我看,字节的多个主力产品都属于这一类。
同时,掌握生活服务生态的公司也有主动出击的机会,如阿里在 25 年 11 月更新通义千问 App,主打全场景生活助手,阿里做这件事的优势是,它旗下有电商购物、即时零售、外卖、酒旅、演出票务、打车等丰富的生活服务应用。
Lovart 创始人陈冕在 136 期节目中,曾将 AI 应用划分为两大类、五小类:生产端的 Office 与 Adobe,以及消费端的 搜索、社交与泛娱乐。
目前市场上最受关注的 Agent 主要集中在生产端。其中,以 Coding 为核心通用 Agent 可被视为 “新时代的 Office”,旨在解决通用的办公流程自动化问题;而 Lovart 以及大量图像、视频、音频、动画等多媒体内容制作 Agent,则是 “新时代的 Adobe”。
陈冕认为,基础模型的目标是打造高智商的 “通用人”,而垂直产品则是在此基础上培养 “专业设计师”;应用型公司的生存空间在于,既能充分调用 “通用人” 的智力,又能解决通用能力无法直接触达的行业深层需求。这是他在创业时选 “Adobe” 方向的原因。
在第 110 期节目中,明势资本合伙人夏令分享了 Agent 与具体行业深度结合的案例。例如明势投资的法律领域的艾语智能,其核心场景是协助银行起诉小额坏账。以往此类案件的法律成本常高于账面收益,机构大多选择计提损失。Agent 的自主性与自动化显著提升了筛选高成功率案件、按模板生成法律文件等环节的效率。尽管目前出庭等线下流程仍需人工,但 Agent 已重塑了利润空间。
这种深度结合也带来新的商业模式:从 “卖席位” 转向 “为结果收费”。艾语智能本身也是个律所,所以它并非向其他律所售卖软件,而是直接承接金融机构的案件,按最终收回的款项获取服务费。这一洞察与 25 年 5 月美国红杉在 AI 峰会上的观点不谋而合——AI 软件要从卖服务到卖结果。
另一个典型案例是 AI 教育公司与爱为舞。尽管创始人张怀亭在和我们的专访中未直接提及 Agent 等术语,但其技术内核——利用 AI 辅助或替代人类助教,实现自主规划教学任务并与学生互动,本质上就是一个教育领域的 Agent。
与爱为舞的策略是将 AI 老师嵌入成熟的 “在线大班课” 商业模式中。曾联合创立高途(Gaotu)的张怀亭采取了先入场获客、再积累真实数据、最后迭代 AI 模型的路径。这种 “场景先行、数据驱动” 的商业化策略,是垂直领域 Agent 相比通用 Agent 的差异化落地方式。
随着 Agent 创业与创新的繁荣,围绕 Agent 的 Infra(基础设施) 或工具链正成为关键机会。在软件分工极其精细的硅谷,这一趋势尤为显著。
简单来说,基础模型与完整 Agent 产品之间的中间地带,皆属于工具链的范畴。这涵盖了 23 年至今轮番更迭的技术热点:从最初的 RAG(检索增强生成) 到 Prompt Engineering(提示工程)、Context Engineering(上下文工程),再到强化学习环境、Evaluation(测评) 及状态检验 等。
在《晚点聊》第 137 期中,MoE 资本的两位创始合伙人 Henry Yin 和 Naomi Xia 总结、梳理了 Agent 工具链至今的 6 轮重大进化,每一轮的起点都源于模型能力上了一个新台阶。
- 记忆(Memory)管理:如何让 Agent 具备跨 session 的长期记忆与精准的上下文调取。
- 评估(Evaluation):在黑盒化的模型之上,建立可量化的测评标准与运行状态监控。
令我印象深刻的是美国软件行业充分的水平分工。在硅谷,即使是极其细分的场景也有体量不小的公司:如专注系统可观测性的 Datadog,以及深耕身份认证领域的 Okta,年收入均已突破 20 亿美元。随着 AI 发展,这些成熟软件生态中的流程,都存在被 AI 重做一遍的机会。
第二个关键词是 Sora App,它代表了 AI 在非提效 to C 方向的尝试,即集中于陪伴、社交、游戏与娱乐领域的产品。
这也不是 25 年的新现象:此前,Character.ai、Glow、Talkie 等产品已让用户习惯与虚拟角色互动;Pixverse 也于 24 年底推出移动端,主打视频特效的制作与分享。
而 25 年 10 月上线的 Sora App 备受瞩目,这不仅因为其出自OpenAI之手,更因其交互创新。其核心功能 Cameo 允许用户授权人脸后生成符合外貌的数字角色,进行单人创作或与好友 “合拍”。
- Lovart 创始人陈冕(第 136 期)认为 Sora App 本质上是社交产品而非单纯的工具。Cameo 的裂变属性让他产生了强烈的分享欲。
- Sand.ai 创始人曹越(第 139 期)持保留意见。他认为新的 C 端平台需具备新内容形态与新传播链路。当时 Sora 仍更像一个工具,用户创作后仍倾向于分发至 TikTok、小红书等存量平台。
尽管大众热度有所回落,但特定创作者群体正在沉淀。25 年 11 月,我在旧金山遇到了一位围绕 Sora App 做数据服务的创业者卢元,他做的产品 SoraStats 专门服务于 Sora 的活跃作者,想帮他们成为 “Sora 上的 Mr.Beast”。
卢元说,活跃作者并非是 AI 达人、专家,还包括教师、Uber 司机等跨行业人士。一个典型案例是日本创作者 Matsumaru(松丸慧吾)。他并不追求真人风格或社交合拍,而是利用 Sora 深度探索二次元与视觉特效。目前他的粉丝量已突破 10 万,而 Sam Altman 是 14 万。
- 聊天软件:25 岁的陈春宇在旧金山创立了聊天应用 Intent。针对美国少数族裔跨语言交流的痛点,该产品利用大模型实现了 “默认全局翻译” 的丝滑体验,解决了过去通信工具门槛过高的问题。
- 语音输入:尽管系统自带功能普及,但 Typeless 等新产品凭借更精准的识别与语境理解脱颖而出。它能将语音内容一键转化为邮件、推文等多种风格,并支持通过语音指令局部修改文本,带来了远超传统工具的舒适感。
陈冕曾预言,26 年将是非效率类 AI C 端产品爆发的元年。工具属性之外,更具情感价值、娱乐价值与交互深度的新产品或许即将出现。
在《晚点聊》第 140 期中,深势科技(DP Technology)的两位创始人张林峰与孙伟杰完整讲述了他们亲历的、用 AI 加速科学发现的发展脉络。这是一个在大语言模型热潮之前便已开始的方向,深势的经历恰好涵盖了该领域的几种核心探索:
2016 年前后,张林峰在普林斯顿读博期间的一个研究是,利用机器学习简化量子物理的第一性原理计算,这些计算有确定的物理公式:薛定谔方程(Schrödinger Equation)、密度泛函理论(DFT)和分子动力学方程等,对生化环材领域至关重要。但以往的难点在于计算复杂度极高,难以从微观尺度跨越到介观或宏观尺度(从单个分子到整体材料属性)。张林峰当时开发的 DeePMD,就是通过机器学习找到了一种在不损失精度的前提下大幅提升计算效率的方法。深势科技随后据此推出了药物研发计算平台 Hermite。
另一种路径,是利用深度学习与生成式 AI 解决特定科学问题,典型代表是获得诺贝尔奖、用于预测蛋白质结构的 AlphaFold,深势也有同一方向的模型 Uni-Fold。
随着大语言模型走向成熟,能够覆盖完整科研流程的科研 Agent 成为新趋势。这不仅包括针对物质科学的科研——支持从文献研究、提出假设、设计实验到验证假设的全流程自动化,还指向一个更特别的方向:用 AI 提升 AI,让 AI 承担人类研究员的工作。
这种 “左脚踩右脚” 的演进方式,契合了经济学家布莱恩·阿瑟(W. Brian Arthur)在《技术的本质》一书中的核心观点。阿瑟认为,技术具有自我繁殖的特性,由两股力量交织推动:
- 供给端: 现有技术通过新组合产生新技术。旧技术基数越大,组合的可能性就越多;同时,观测技术(如显微镜、传感器)的发展加速了对新物理现象的捕获。
- 需求端: 新技术的需求不仅来自人类,也来自技术本身。每种技术的出现都会伴随改进它、降低其成本或解决其衍生问题的需求。
《技术的本质》一书写于 2009 年,当时作者说:技术的自我进化是通过 “人类发明家” 这一中介实现的。而现在,我们可能正处于 “AI 发明家” 诞生的前夜。这将是一个信息广度、计算能力远超人类个体,且能不眠不休进行迭代的系统。
面对这种指数级的进化速度,一个问题是:我们做好准备了吗?如果技术即将脱离人类中介自主进化,我们该如何提前设计与之共处的方式?
从本轮 AI 热潮起点开始,《晚点》持续跟踪报道互联网大公司,尤其是中国大公司的 AI 动向,其中最有实力的是三家:字节、阿里、腾讯。
25 年,我们对这三家公司的 AI 动作有两轮集中报道:春节后陆续发布的四篇报道:《腾讯在 AI 拐点到来前的 700 天》(高洪浩)、《字节 AI 再创业:独立组织、全链条的饱和出击》(王与桐)、《重新认识阿里:大踏步迈向 AI》(管艺雯)、《字节、阿里、腾讯的 AI 人才竞赛:2330 个研究者背后的共识与分歧》(贺乾明、黄帧昕),以及前不久发布的《字节、阿里、腾讯 AI 大战全记录:一场影响命运的战争》(高洪浩)。这些报道涵盖我们观察科技巨头做 AI 的几个关键视角。
字节的 AI 部门相对独立,它试图通过营造一个小环境,以创业公司的方式运行,从而摆脱十几万人庞大组织的重力。
25 年之前,字节成立了三个相对独立的部门:负责产品的 Flow(豆包产品团队隶属于此)、负责模型研发的 Seed,以及提供后端研发支持的 Stone。这三块业务最初的负责人均为字节老将:Musical.ly 创始人朱骏负责 Flow;2015 年从百度加入的朱文佳负责 Seed;同样来自百度,2014 年入职的洪定坤负责 Stone。
今年,字节 Seed 迎来了新的研发一号位——Google DeepMind 前研究副总裁吴永辉。业内人士评价吴永辉是 “大佬级别的技术管理者”,能真正 “镇得住场子”。
“镇场” 能力之所以重要,与字节补充人才的顺序有关。在吴永辉于 25 年 2 月入职前,字节在整个 24 年都在疯狂吸纳年轻技术骨干。这件事的起点可追溯至 23 年夏天,当时字节本打算投资 MiniMax 和阶跃星辰,但在一次高层会议后,张一鸣明确表态:字节应该、也能做好自己的大模型,无需对外投资。
紧接着,字节高层及张一鸣本人从 23 年底开始密集招人。我们在《字节 VS 六小龙》那期节目里提到,24 年有投资人去拜访顶尖论文的作者时,发现不少人都刚和张一鸣聊过。最终,字节招募了来自 Google 的蒋路、来自面壁的秦禹佳、来自零一万物的黄文灏、智谱 AI 的丁铭,以及备受关注的阿里通义千问模型的前负责人 周畅。
当这些在业界有影响力、处于事业上升期的 Leader 汇聚一堂,吴永辉这样一位有多年 管理经验的资深人士就成了符合画像的领导者。这也让 Seed 团队中来自传统搜推广部门的人员比例降低,而像吴永辉、周畅这样的 AI-Native 人才比例显著上升。
不过,精兵强将也带来了激烈的内部竞争。以视频生成为例,内部有多个团队在同步推进,部分人才(如蒋路)的流失。
一位技术 Leader 对赛马机制做了有趣的总结:健康的赛马是多路探索,跑完这轮还有下轮,团队有翻盘机会;但如果演变成 “拳击”,败者就只能退场。
阿里的 AI 一号位始终是已入职十年的周靖人。他是阿里云 CTO 兼通义实验室总负责人,也是阿里大模型开源的提议者和主导者。周靖人今年晋升为阿里合伙人,关键原因之一便是他带领通义实验室保证了 Qwen 系列模型的领先地位。
- 负责主力模型 Qwen 研发的 “千问” 团队,由 90 后林俊旸负责。林俊旸是阿里内部培养的人才,2019 年从北大硕士毕业后即加入达摩院;
与 Seed 不同,通义实验室在此轮 AI 热潮前已经存在,由原达摩院多个实验室合并而成。这导致其最初在薪酬激励上没那么独立,但在 24 年底,通义对模型团队普遍调升了薪资和职级,可以理解为对一种对市场行情的回应。
这种并非 “高举高打” 的起步,也带来了意外之喜:研发 Qwen 的团队是从内部相对边缘的角落里自下而上生长的,规模精简,却通过开源大模型形成了极强的社区影响力,成为了一个自驱且强势的团队。目前,千问团队也在探索具身智能 VLA、多模态等前沿领域,并上线了面向普通用户的 Web 端产品 Qwen Chat(chat.qwen.ai)。
25 年秋天,前 OpenAI 研究员、ReAct 作者姚顺雨加入腾讯。12 月,腾讯官宣姚顺雨出任总裁办首席 AI 科学家,直接向总裁刘炽平汇报,并兼任 AI Infra 部和大语言模型部负责人。
1998 年出生的姚顺雨是典型的年轻 AI 原生人才,24 年博士毕业后即加入 OpenAI。
- 重塑目标,指出此前混元模型太盯着 Benchmark 刷榜而忽视了实际体验;
相比字节先收骨干再引统帅,腾讯在招募姚顺雨之前并无太多 AI 明星,而姚顺雨本人也非常年轻,没有太多管理经验。对稳健的腾讯来说,这是一次激进的组织选择,姚顺雨更像是一条被引入的 “鲶鱼”。这或许受到了 DeepSeek 的启发:DeepSeek 证明了一群 95 后研究员同样能做出惊艳世界的模型。腾讯这一轮调整的效果,将在 26 年得到验证。
最后,一个中美差异是:在美国,OpenAI 等初创公司对人才的吸引力最大;而在中国,巨头依然是顶尖人才的首选。正如 MiniMax 创始人闫俊杰所言:“客观来说,字节的 AI 人才密度是最高的。”
在 Sora App 发布后不久,Sand.ai 创始人曹越有一个对组织的观察:Sora App 之所以能如此巧妙地利用模型特性开发新功能与交互,是因为 OpenAI 实现了从产业到模型的深度垂直整合,这是一种 “端到端” 的组织,产品需求可以高效地梯度回传给模型。
这一年,我们通过与多位 Seed 研发人员和 Flow 产品团队成员交流,综合感受是两个团队协作频次极高。Flow 的一些中层认为,Seed 的模型支持给力,有共同为产品服务的意识。
字节在 25 年初定下三个 AI 大目标:探索智能上限、探索新 UI 交互形式、加强规模效应。
其中 “加强规模效应” 值得细品。传统软件通过 “一次构建,多次售卖” 来实现规模效应,但大模型产品每次调用都消耗算力,更像是有 BOM 成本的制造业。字节的逻辑在于 25 年 1 月豆包 1.5 Pro 官博中提到的 “数据飞轮”:依托字节在推荐、搜索和广告领域的 AB Test 经验,构建了基于大规模用户反馈的闭环优化系统。
这里飞轮的两端是「大规模用户反馈」和 「模型实际使用体验」,而不是模型性能本身。因为现阶段,大量普通用户的反馈不能直接提升模型能力,要让模型变强,还是得靠研发人员的努力。
字节对规模效应的表述,可能反映了,他们在努力发挥过去积累的移动互联网经验和基础设施,而且从豆包的增长看,确实取得了效果。
腾讯方面,原本混元大模型与元宝 App 均隶属于 TEG(技术工程事业群)。25 年初,腾讯总办会决定整合分散的 AI 应用,最终由汤道生负责的 CSIG(云与智慧产业事业群) 接手。元宝与原本在 PCG 的 QQ 浏览器、搜狗输入法、ima 等应用汇聚到了 CSIG,而混元研发团队仍留在 TEG。这种模型与产品分属不同事业群的架构,考验着跨部门的协作效率。
同时,腾讯最大的底气——微信,始终是独立的事业群。就在上周三,微信封掉了元宝 App 为春节大战准备的 10 亿元红包分享链接,理由是 “整治过度营销”。这个小插曲引发了一个疑问:面对 10 亿级用户,微信能在多大程度上深度参与腾讯的 AI 布局?
阿里的路径更复杂。 23 年 10 月上线时,通义千问 App 与通义实验室均在阿里云旗下。到了 24 年底,通义 To C 产品团队被剥离,划归至吴嘉管理的智能信息事业群。这意味着产品与模型团队从 “同屋” 变成了 “邻居”。
这种调整也伴随着应用布局的变动。相比字节豆包与腾讯元宝的品牌稳定性,阿里经历了频繁的 “轮换”:
“通义千问”App 24 年 10 月上线 年就上线的夸克浏览器加入 AI 搜索等新功能。
24 年 5 月,通义千问 App 改名为 “通义”;25 年 3 月,阿里将夸克定为 AI 旗舰应用,提出 “AI 超级框” 概念。吴嘉曾说,希望夸克成为中国第一个日活过亿的 AI 产品,但这一目标最终被豆包率先实现。
到 25 年底,原先被冷落的通义 App 再次更名为 “千问 App” 卷土重来,接通了阿里生态里的外卖、购物等生活服务。
最初的通义千问 App 功能堆砌严重,展示层级缺乏重点,在整个 24 年,相比豆包、Kimi 等更具辨识度的 Chatbot 产品,表现始终不温不火。
当时,管理该产品的阿里云,战略重心在拓展 AI 云业务、大模型研发以及构建模型生态。这或许解释了阿里为何随后将 To C 产品团队悉数划归至吴嘉管理的智能信息事业群。阿里当时的逻辑是:Chatbot 会最先颠覆搜索,而从夸克这款浏览器入手改造搜索体验,是通往 AI 产品最顺理成章的路径。
然而,当夸克在 25 年正式接棒后,表现却差强人意。它确实吸引了大量尝鲜者,但夸克庞大的老用户群依然习惯于网盘、搜题等传统功能。毕竟夸克已上线十年,承载了太多大模型时代之前的用户习惯,难以在短时间基因突变。
近期通义 App 再次更名为 “千问 App” 卷土重来后,深度接通了阿里生态内的生活服务,试图成为一个能点外卖、能购物的全能 AI 助手。与此同时,阿里一改往日在投放上的克制,千问 App 的单日投放峰值达 1500 万元。但一些阿里人士,对目前的打法持悲观态度。他们认为,刚改头换面的千问 App 尚不成熟,在产品力未打磨好的情况下大规模的投放,难以产生实质留存,尤其是面对强劲的对手豆包。
字节跳动目前的布局则是 “一超多强”。 豆包作为中国首个日活过亿的 AI 产品,不仅稳居第一,还推出了海外版 Dola(日活破千万)。在豆包之外,字节进行了饱和式攻击:AI Coding 工具 Trae、智能体平台 Coze、教育应用 豆包爱学 等。
豆包已发展出独特的 “人设”。它不像 ChatGPT 那样是 “办公室精英”,而是更亲切、生活化、好玩。在抖音上,“和豆包互怼”、“让豆包教穿搭” 的内容已形成广泛传播。目前豆包已开始尝试商业化,如 25 年 11 月上线 年,豆包如何平衡免费增长与变现将是核心看点。
腾讯的元宝则在 25 年春节迎来意外惊喜。 由于之前自研模型相对落后,腾讯成了大厂中接入 DeepSeek 最果断的公司。元宝日活因此在 2 月底快速增长了 10 倍。元宝最新的尝试是 “元宝派”,试图通过分享链接将微信、QQ 的社交关系引入 AI 社交群。
- 腾讯:更重视应用落地,策略是 “后发制人”,等待模型能力成熟的拐点。
- 字节跳动:建立了一个相对独立的 “国中之国”,以创业公司的方式驱动模型与应用齐头并进。
今年春节的竞争态势异常激烈:豆包已正式拿下春晚合作伙伴席位;元宝紧随其后推出 10 亿元红包;而千问则宣布发放 30 亿元红包。
与此同时,悬在所有人头上的最大变数是:DeepSeek-V4 究竟何时发布?效果又将如何?(补充:2 月 11 日,DeepSeek 网页端已更新了底层的新模型,应该就是 V4 的某一个版本。)
如果 DeepSeek-V4 选择在节前发布,对腾讯的春节攻势是个利好。虽然在现阶段,第一梯队模型之间的差异,大部分普通用户可能已难以直观感知,但 DeepSeek 有强大的品牌效应,而元宝又是大厂产品中与 DeepSeek 绑定最紧的一个。
这个春节,各大公司的 AI 从业者们大概率又无法享受一个完整、惬意的假期了。
关于 AI 应用的具体趋势,前文已有讨论。这一章会重点剖析 AI 创业的商业化进展,以及中国创业公司面临的一个特殊议题:全球化。
25 年至今,中国 AI 创业市场迎来一个节点事件:26 年 1 月,智谱 AI 与 MiniMax 前后脚登陆二级市场。
两家公司上市,向公众揭开了大模型创业公司的财务底牌,也能看到资本市场的短期定价。此前业内的一种流行观点是:中国头部的模型能力并未被美国拉开代差,但估值却差了两个数量级——中国最贵的大模型公司估值在 30-40 亿美元,而 OpenAI 与 Anthropic 的估值已分别飙升至超 7000 亿和 3500 亿美元。
然而,从财务情况也可以有另一种解读,上周(2 月 9 日)收盘时,智谱市值约 114 亿美元,MiniMax 约 185 亿美元,与美方的差距缩小到了一个数量级。但看收入:智谱 25 年上半年收入约 2700 万美元,MiniMax 前三季度约 5300 万美元;对比之下,OpenAI 25 年营收远超 130 亿美元(Sam Altman 自称),Anthropic 则达到 45 亿美元(the Information 报道)。
当然,无论中美,基础模型公司都在巨额亏损。一方面,技术竞赛要求持续的研发投入;另一方面,大模型产品具有制造业式的 “BOM 成本”,每次调用都消耗算力。据伯恩斯坦分析师估算,OpenAI 仅在 25 年第三季度的亏损就可能高达 120 亿美元。
最新市场消息是,OpenAI 和 Anthropic 计划最早于 26 年底 IPO。中国 “大模型第一股” 的竞争比美国早了整整一年。原因很现实:中国一级市场的后续资金不及美国充沛,上市成了拓展定增、大规模融资的必要手段。所以在 MiniMax 上市当天的融资故事报道中,我们写道:“大模型领域的 IPO 并不发生在大战告一段落之后,它不是对胜者的奖赏,而是下一轮竞赛的鼓点。” 更直接地说,IPO 是一张续命安全网。
好消息是,目前,仍坚持基础模型研发且未上市的中国头部公司已寥寥无几,DeepSeek 依靠幻方的自有资金支持,而 Kimi(月之暗面)与阶跃星辰则在近期分别完成了大额融资。
相比之下,欧美市场仍在涌现新成立的 Neo Lab,如 Ilya 24 年创立的 SSI、Mira 25 年创立的 Thinking Machines 等。而在国内,由于资金门槛和巨头竞争,23 年下半年起就很难再有新的基础模型公司获得初始融资。
这些创业者正在打一场 “极难模式” 的游戏。不同于移动互联网时代有 iPhone 带来的硬件红利和自然增长,大模型目前仍运行在存量硬件上。现存巨头不仅掌握着流量入口,且均已亲自下场自研模型,缺乏收购意愿。对于基础模型创业者而言,仅仅维持生存是不够的,不达到足够体量的成功,也可以算是一种失败。
据不完全统计,全球 ARR(年度经常性收入,以一段时间的订阅收入折算到一年的收入;当公司快速增长时,ARR 往往大于实际收入)超过或等于 5,000 万美元的 AI 原生企业约有 40-70 家,主要集中在 AI Coding、内容创作 Agent、法律及教育等场景。代表公司包括 Perplexity、Cursor、Runway、HeyGen、Harvey 等。
- Manus(蝴蝶效应):作为通用 Agent 的代表,于 25 年底以超过 20 亿美元的价格被 Meta 收购。这对坚持创业十年的团队来说是一个 “童话故事”。
视频与语音生成公司(如 ElevenLabs)之所以能杀出重围,是因为多模态技术与大语言模型的主轴并不完全重叠,这为创业公司留下了独特的空间。
这里推荐一个由一位创业者 Henry Shi 维护的 “Top Lean AI” 榜单。他相信 AI 会催生 “人数极少、收入极大” 的公司。榜单中收录了许多人均创收超 100 万美元的团队,最新名单是 44 家,其中 14 家总 ARR 超过 5000 万美元。
相比基础大模型公司 “Go Big or Go Home” 的残酷,AI 应用团队的活法更多样:可以追求小而美的极致效率,可以寻求被巨头收购,也可以在巨头无暇顾及的缝隙里先立足。当然,再谋求纵深发展,比如 Cursor、Perplexity 都已在训练自己的模型。
想分享三个 AI 创业团队的对比,它们恰好折射了开发者们在不同时间点做出的不同选择。
前面提到过,这是一家年营收已突破 5,000 万美元、主打视频数字人生成的公司。HeyGen 创立之初,曾同时在旧金山和深圳设有团队,国内主体名为 “诗云科技”。然而,早在 23 年 12 月,诗云科技便已申请注销。这是一个在 AI 浪潮还未全面破圈时,就敏锐察觉风向并早早做出抉择的例子。
Manus 背后的 “蝴蝶效应” 公司在 25 年 6 月将总部迁至新加坡。从地理和市场角度看,这是一个相对中庸且稳妥的折中选择。然而,在 25 年底官宣被 Meta 以 20 亿美元收购后,26 年 1 月,中国商务部表示将会同有关部门对该项收购进行合规性审查。
MiroMind 是陈天桥在受 DeepSeek 启发后,出资支持成立的 AI 团队。当时梁文锋向陈天桥推荐了代季峰作为研发负责人,代季峰曾长期在微软亚研院和商汤工作,后任教于清华大学电子工程系。
26 年 1 月初,团队发布了首个主打深度研究(Deep Research)的 30B 小模型 MiroThinker 1.5。然而,发布不到半月,代季峰便确认离职。据了解,由于法律合规及地缘因素,陈天桥难以继续支持国内的这部分研发力量,原中国团队不得不突然寻求独立融资或新的发展空间。
这三个团队的境遇,折射了 23 年到 25 年间,AI 竞争已彻底成为大国博弈的核心一环。它不仅关乎算法与算力,更受到市场以外的诸多因素制约。
这是所有创业者必须直面的现实:美国也有公司不要中国市场,比如 Anthropic。
- 场景匹配度:你服务的场景需要的是最尖端的技术探索,还是极致的性价比?
- 发展策略:是优先追求产品性能与规模、忍受长期亏损,还是寻求阶段性盈利以自保?
开源社区与全球研发共同体之间依然存在着超越国界的协作。人类最重要的技术进展,很难长期被限制在某个狭小范围内。当然,这个 “长期” 到底是多久,将直接决定一批公司的成败与生死。
根据中国信通院《具身智能发展报告(2025)》,截至 25 年底,中国具身智能和机器人领域的年度融资总额已高达 735 亿元。对比之下,几家头部大模型公司(含智谱、MiniMax IPO 融资)的同期融资总额约为 182 亿元。
火热也体现在估值上。在美国,具身公司的估值远低于大模型公司,如最贵的 Figure 估值 390 亿美元,是 OpenAI 的 1/20。而在中国,两者并驾齐驱:银河通用在 25 年底估值已达到 30 亿美元;而即将于 26 年上半年 IPO 的宇树科技,市场对其市值预期甚至直指 500 亿乃至千亿元人民币。
同时,源源不断的新具身团队仍在涌现,25 年新成立的公司就有:从华为、百度自动驾驶部门走出的陈亦伦、李震宇创立了它石智航;旷视联创唐文斌等人创立了 “原力灵机”;理想前自动驾驶技术研发负责人贾鹏等人创立的至简动力;华为诺亚方舟实验室前首席研究员李银川创立的诺因知行;月之暗面前强化学负责人宋鸿涌创立的 Android 16;以及星海图联创许华哲,也正在筹划新一次创业。
政策与制造业红利:具身智能有硬件本体,是地方政府招商引资的 “舒适区”,能落地看得见的产线。全国已建成及在建的 “具身智能训练场” 已接近 30 家,这种 “遥操作采集数据” 的场景本身就带动了具身智能机器人的初期收入和应用落地。
供应链比较优势:中国成熟的供应链能显著降低本体成本。例如,宇树科技推出的 10 万元级人形机器人,已成为全球实验室的主流开发工具。
更明确的退出路径:中国二级市场对制造业更友好。除了宇树,智元、银河通用、星海图等公司据传均计划在 26 年冲击 IPO,他们多选择港股。即使是像智元机器人收购上纬新材股权这种尚未完成实质 “借壳” 的动作,也能让后者的市值从 30 亿暴涨至 500 亿以上。
一批具身公司计划上市,港股宏观行情可能发生波动,以及很多公司还在亏损——这几个因素碰到一起——这场具身上市潮会如何发展?会成为 26 年非常值得关注的一个行业悬念。
其中,数据和模型,是和智能能力直接相关的。行业的共识是,数据是当前的最重要课题,更准确说,是如何规模化且相对低成本地获取大量、有效的数据。
- UMI(universal manipulation interface),主要是通过让人在做任务时,戴上手套等可穿戴设备,来采集手部位姿、力控等数据。
- 让机器人自己做任务,失败后自己调整,即通过 self-play 获得数据。
目前流派纷呈:有侧重 “真机遥操作” 的,有侧重 “仿真迁移(Sim-to-Real)” 的(如银河通用、Hillbot),也有利用 “视频学习” 或 “穿戴设备(UMI)” 采集数据的。尽管对于 “仿真数据是否是大坑” 仍有分歧,但组合多种数据源已成主流。
在模型上,当前行业相对主流的技术路线有 VLA、端到端,还有常被提及的世界模型,它们不是平行概念。
在 148 期,对它石创始人陈亦伦的访谈中,他对这几个概念有清晰、简单的总结,这里结合更多资料做了补充。
- VLA 模型(Vision-Language-Action):目前的主流路径,即通过多模态 VLM 训练出直接输出机器人动作的神经网络。
- 世界模型:现在大家主要探索的方向是 “生成式的世界模型”——从世界的这一个状态,预测和生成世界的下一个状态。如果以 2D 视觉信息表达,是可以无限延续的视频生成模型;所以当 OpenAI 发布 Sora 时,便有人认为这是世界模型的雏形。若以 3D 视觉信息表达,便是 Google 在 25 年发布的 Genie 3。它能生成一个可供探索的 3D 空间,并配合 Google 的另一个 AI 项目 SIMA 2,让用户创建的 Agent 在其中自由移动。而真正被期待的 “完整的世界模型”,是能实现与环境和物体的直接交互——比如当你戳破一只气球或摘下一朵花时,系统能符合物理规律地预测并生成交互后的下一个状态。
非常推荐《晚点》25 年 10 月发布的一篇报道:《特斯拉人形机器人再延期,因为双手只能用六星期》(李梓楠),深入还原了第三代 Optimus 设计延期背后的供应链细节,解释了为何当时 Optimus 的灵巧手寿命极短、故障率高,且由于设计原因无法局部修理,一旦损坏只能整体更换。此外,整个机身还面临着手臂与腿部关节的稳定性、减重以及续航等重重挑战。一位被 Optimus 屡次拖延的供应商吐槽:“老马(Elon Musk)的信誉分,现在恐怕连充电宝都借不出来了!”
26 年初,智元机器人宣布实现了 5000 台的销量;而宇树则称其纯人形机器人 25 年的实际出货量超 5500 台(不含四足和轮式),本体量产下线 台。
目前的交付大头依然是卖给具身智能训练场、高校实验室及研究机构。研发需求也是线 年这波训练场建设热潮中(中国已建成和在建的数采工厂已有 30 座),需要甄别那些名为 “智能训练”、实为 “工业园地产” 的项目。
25 年 7 月,中国移动下达了总额 1.24 亿元的人形机器人采购大单,其中智元拿到了 7800 万,宇树拿到了约 4600 万。这些机器人除了用于机房巡检,很大一部分功能就是展厅接待和营销宣传。
市场上也已出现专门租赁宇树机器人的公司。据报道,靠商演收取的租金,最快两周到一个月就能收回本体成本。不过很多视频里机器人的酷炫动作,其实仍由真人近距离遥控完成,而非机器人自主完成。
研发和表演需求都有阶段性,也有比较明显的规模上限,长期大家想实现的,还是让机器人进入工厂、商店甚至家庭里,自己干活。
虽然 Sunday Robotics 或 1X 的原型机在视频里表现惊人——比如叠衣服、拿高脚杯——但在真实的餐厅、酒店或家庭里,我们依然很难见到它们的身影。这需要机器人能处理多种家务、适应不同家庭环境(一定的泛化性),更要极度耐用且安全。
机会:对传统机器难做(如处理线束、布料等柔性物体,或者电子设备精密组装中需要精细力控)或人工太贵、缺工的环节,更通用的具身智能机器人有渗透的机会。
挑战:在成熟的工业门类中,人形机器人面临着 “专机”、传统工业机器人的竞争。现有方案在负载、精度和生产节拍上,短期内超过人形机器人。
工业领域还存在有趣的 “三赢” 潜规则:具身公司向供应链供应商承诺订单,供应商反手买入具身机器人并在二级市场通过相关概念拉升股价。这可能会让机器人在并未真正达到可用状态时就销量先行。
陪伴需求不需要极高的智能和任务规划。这类产品的逻辑更接近消费电子:不讲长远的技术故事,直接靠销量和用户口碑说话。它们不需要等待具身智能下一阶段的突破,而是靠现有技术的成熟组合快速回本,再反哺长期研发。
宇树的消费级机器狗 Go1 累计销量已达数万台。而由地平线前副总裁余轶南等人创立的维他动力(Vbot),其超能机器狗在 26 年 1 月的预售期内拿到了 6540 台订单。不过这些订金在锁单前可退,到 26 年 3 月正式锁单并开启交付时,能反映更实际的需求。
我们接触的很多从业者都预言,26 年,具身领域会进入规模化应用落地元年。接下来的 10 个月,我们会看到,这更多是一种期待,还是真的是一个判断。
计算机科学家 Alan Kay 在 1980 年代的一次演讲中说过一句名言:那些真正认真对待软件的人,应该自己去做硬件。
这是做 AI 硬件的一种出发点:把硬件视为大模型软件系统的载体,寻找下一个大规模的硬件入口。
AI 眼镜被很多人视为这个入口级硬件的备选:有望成为大量用户每天高频使用、能支撑繁荣应用生态的硬件。
所以现在做 AI 眼镜的公司很多,而且有不少是大公司。Google、Meta、阿里巴巴、小米、理想汽车等都已发布自己的 AI 眼镜。
眼镜之所以有潜力成为 AI 的入口级硬件,是因为在交互方式上,它具备手机做不到的两个特点:hands-off 和 always-on。
- Hands-off 指可离手操作,通过说话直接下达任务;若结合显示技术,还能快速、高效接收信息。
- Always-on 指眼镜可全天佩戴。它是戴在脸上、最接近人感官中枢的传感器平台,可以采集接近人眼视角的视觉数据,也能获得声音数据。用户层面的功能包括抓拍和录音;技术层面的长期价值则是获取设备此前难以获得的真实世界的物理数据,这些数据有助于进一步开发 AI 与理解用户。
这个思路也让人想到一个非眼镜的 AI 硬件产品 Looki。Looki 由美团前智能硬件负责人孙洋创立。在《晚点》“100 个 AI 创业者” 系列中他提到:“互联网上的数据已经被大厂分得差不多了,但更大的数据在物理空间里。”
Looki 的形态是可贴在胸前的便携相机,可抓拍并录音全天生活片段,再自动总结成视频或漫画。和眼镜一样,它是传感器平台,只是更轻、更无感。
AI 眼镜的新交互特性既能提升用户体验,又能因独特数据反哺 AI 技术。《晚点》对 Viture 创始人姜公略的访谈中,对 AI 与眼镜关系有更多讨论。
- Hands-off:语音已相对成熟,但显示技术仍存在清晰度、视角和眩晕问题。显示重要性在于,语音是自然输入方式,却不是高效信息接收方式;若没有显示,多数场景直接戴耳机即可。行业甚至尝试给智能耳机加摄像头,先实现语音与拍摄,再解决显示。
- Always-on:需要极高舒适度,而电池、传感器和芯片带来续航、重量与发热问题,工程实现困难。
因此 AI 眼镜仍处早期阶段,产品形态尚未收敛:有的眼镜带拍摄,有的不带;有的有显示,有的没有。
- 一种是一步到位做完整产品,例如 Vision Pro,但其重量与价格已证明当前技术环境不支持。
- 另一种是从简单功能做起。Ray-Ban Meta 经过多年迭代:第一代反响有限,第二代功能相似但体验明显改善,销量超过 300 万台;25 年 9 月第三代加入显示,即 Ray-Ban Meta Display。媒体报道称 Apple 也计划在 26 年第二季度推出轻量化、不带显示的 AI 眼镜。
- 还有 Google:其早在十多年前推出眼镜设备,25 年底宣布与合作伙伴推出新 AI 眼镜,Google 提供 Gemini 模型能力,合作伙伴提供硬件与其他能力,属于眼镜 OS 生态路径,合作伙伴包括 Xreal 等中国公司。
前面对入口级硬件的讨论,是基于电脑到手机,再到下一个智能设备的推演和类比。而类比有时是危险的,AI 时代也有一种不同的可能:就是在智能手机之后,并不会出现一种规模巨大、形态相对单一的智能设备。
AI 的硬件形态可能就是分散和多样化的:包括已经存在的手机,甚至汽车。比如像阶跃星辰、面壁智能等大模型公司,也在和车企合作;也包括一批利用大语言模型或生成式模型某些特性的单功能新硬件,从特定场景切入并做到极致。
典型例子是 Plaud。这是一款贴在 iPhone 背板上的录音设备,本质上类似录音笔,但有两点不同:
一是硬件形态解决 iPhone 不便通话录音的痛点,通过振动收音实现录音,并因贴附手机提升使用频率。
Plaud 第一代 23 年 6 月上市,立项早于 2022 年底 ChatGPT 发布,使其能在热潮后迅速加入 AI 总结能力。团队配置也有特点:创始人许高连续创业三次,非工程背景,但组建了硬件经验丰富的团队,如曾在龙旗股份及 “糖猫” 项目工作的刘巍。公司成立时间不长,已有十位合伙人。据官方信息,Plaud 累计销量已超过 100 万台。
另一类资本市场关注度高且有销量的 AI 硬件主打健康管理。例如曾在字节跳动负责 Coze、AI 眼镜与豆包手机的潘宇扬推出 Odyss AI 项链,用多模态视觉记录饮食并提供健康建议。他反对把 AI 硬件仅当作大模型载体,而忽视具体用途与用户需求。
还有一些健康类硬件与大模型关系不大,如 2013 年成立的 Oura Ring,累计销量 550 万枚,可做睡眠与活动监测,估值超过 100 亿美元。另有 AI 祈祷戒指等结合宗教仪式的用途。
除实用能力产品外,还有强调情绪或陪伴价值的 AI 硬件。《晚点聊》访谈过 Haivivi 的李勇、Fuzozo 的孙兆志,测测创始人任永亮也计划推出陪伴硬件或机器人。三位创始人的共识是:除语音质量与延迟外,对话情绪体验、角色设定与 IP 同样关键。
以 Fuzozo 为例,其通过形象设计与对话反馈增强情感互动,例如根据对话生成情绪卡片与日记。但这类产品的持续使用率仍受用户时间投入限制。
关于 AI 硬件的第二个关键词是深圳。不止 AI 硬件,这里已成为更广泛科技硬件的全球高地。
今年《晚点聊》有三期相关节目:第 120 期访谈刚上市的影石 Insta360 创始人刘靖康;第 141 期访谈智能轮椅 Strutt 创始人洪小平;第 145 期访谈外骨骼公司极壳 Hypershell 创始人孙宽。《晚点》近期还发布了对拓竹创始人陶冶的专访《对话拓竹陶冶:我们一群工程师,一起造一个朴素的硬核公司》(贺乾明、黄俊杰)。这些公司都在深圳。
这些访谈中都会谈到 AI,因为具备一定门槛的硬件产品本质是软硬件结合产品,必然使用最新软件技术,包括 AI。但这些公司的起点都不是 AI,创始人也不会强调 “AI 原生”。
如果 Alan Kay 的那句话——所有认真对待软件的人应该自己造硬件——代表软件中心视角,那么许多直接做硬件的公司有更朴素的出发点:做满足用户需求且技术可实现的产品。深圳汇聚了最多这样的公司。
消费级硬件已成为热门投资领域。尤其 25 年下半年,一级市场对硬件的关注度甚至超过 AI,这与 Insta360 上市后的股价表现及拓竹等公司的标杆作用有关。
深圳这批公司存在明显共性。许多由大疆前员工创立:陶冶曾任 Mavic Pro 产品负责人,洪小平曾负责大疆激光雷达;庭院机器人公司松灵创始人魏基栋、户外储能公司正浩创始人王雷、AI 吉他 LiberLive 创始人唐文轩也来自大疆。这些公司在做事风格、人才构成、产品追求上与大疆相似,地理上也集中在深圳西丽大疆总部 “天空之城” 周边。
这些公司还与两个机构密切相关:李泽湘参与组建的深圳科创学院与东莞松山湖机器人基地。去年 11 月曾集中拜访两地。科创学院位于大疆隔壁,一些办公室可直接看到总部,被称为 “疆景房”;松山湖基地提供共享工厂等创业支持设施。
不少新公司孵化于这两个机构,如自动泡沫轴云望创新、电助力自行车配件 Kamingo、家庭豆腐机极豆。
此前《晚点》也访谈过李泽湘,主题是如何培养科技创始人。李泽湘与机器人基地的一个思路转变是从 B 端转向 C 端。过往孵化经验使其意识到,年轻创始人更适合 C 端创业:B 端更依赖商业关系与管理经验,C 端可通过创新与产品定义快速打开局面;一旦形成品牌,又能反向拉动供应链发展,而深圳及中国完善供应链能支持这种创新尝试,形成正循环。松山湖基地已梳理出完整创业流程,见《晚点》文章《我们要培养什么样的工程师?李泽湘教授对三十年工科教育改革的回顾》。
- 面向高购买力欧美市场,以创新体验和高品质获取较高毛利,再投入研发与竞争;
- 发展路线可预测是这类创业的特点。但要成长到一定规模,普遍需要跨越两道门槛。
一是从小众市场扩散到大众市场。无人机、消费级 3D 打印起初很少有人预料规模可达百亿级。除产品外还需关键应用或生态:无人机找到了航拍场景;拓竹在推出消费级 3D 打印机时同步建设 MakerWorld 模型社区,丰富模型生态成为普及关键。
二是后续竞争策略。优秀品类必然吸引竞争者。扫地机器人需求广泛,迅速完成创新扩散,短期内成为红海并出现淘汰。
Insta360 创始人刘靖康早期长期坚持 “平衡收益与风险”,在垂类市场积累利润与能力,避免过早进入最激烈竞争。他在 23 年采访中表示:“长远看,激烈的竞争不可避免,但我的初衷是,这件事越晚到来越好”。但到 25 年访谈时,我们聊的最多的就是竞争,包括 Insta 360 在一些品类里从攻到守的变化。
如今随着 Insta360 旗下影翎无人机发布,以及大疆推出全景相机,两家影像公司在多个品类形成交错竞争、互为攻守。
25 年 11 月在硅谷,一周内听到的故事高度两极:有人拿到 Meta 上亿美元 offer,有人创业即融数千万乃至上亿美元,也有人因股价与投资获利;同时也有人清仓、做空亏损,或被裁员。
湾区是 AI 双面影响的缩影:这里同时汇集快速增长的 AI 企业、天价人才竞争、屡创新高的股价,以及规模化失业。
关于 AI 对中国人才市场的影响,可见《晚点聊》第 133 期对脉脉创始人林凡的访谈。
从脉脉数据看,中国大厂在激进扩招 AI 相关人才:自 25 年 2 月开始,AI 岗位发布量的环比增速多月保持两位数。
一些公司的员工氛围也在变化。《晚点》在 24 年采访林凡时,他说阿里员工没那么高调了;到 25 年,随着股价被 AI 预期推高,阿里士气又回来了,“Make Ali Great Again”。
与此同时,部分岗位需求在缩水。林凡提到,中层管理岗的职位需求减少约 25%。
《晚点聊》第 109 期对卡兹克的访谈中,他作为产品与设计背景的前金融科技从业者,从 23 年开始边学边做,逐步把工作流程 AI 化:抓取每日 AI 新闻并用模型排序筛选;寻找 “低粉高赞” 内容并分析传播特征作为选题参考。他还用 AI 组织线下活动:从报名留言中筛选真实参与者,并按复杂规则自动分组排座,过去需要多人做几天的工作,现在显著节省人力。
他的学习方法是 “干中学”:从真实需求出发;如果不知道做什么,就从工作中最不想反复做的部分开始——把重复三遍的事 AI 化。
我记得 23 年 AI 热潮初期,有一天看到北大胡泳老师回答:AI 到来后,普通人会面临什么挑战?他当时说:人需要重新理解并感受到,人的意义并不在于工作。
社交媒体上常有 “不想上班、只想躺平” 的调侃,但对大多数人而言,自我认同、成就感与意义感的主要来源仍是工作。
我一直不太相信 “AI 解放工作时间,剩下的岁月就享受生活、爱与和平” 的许诺。我们的教育与环境并未充分鼓励人们享受生活、寻找热爱与激情。现在 AI 来了,说工作我替你做,你去享受生活吧——很多人未必立刻具备这种能力。
如果被 AI 替代,首先是失业与经济问题;即便存在 UBI(全民基本收入),意义感缺失仍可能成为更长期挑战。
在《晚点聊》第 116 期讨论田渊栋小说《破晓之钟》时提到:短期,人会因资源增加或无法胜过 AI 而产生空虚;随后转向 “独特性竞争”,通过创意与个性证明价值,但过程痛苦,因为不是每个人都有创造独特性的才华和能力。
但他相信长期可能是乐观的,社会可能从 “教育—技能—工作—收入” 的循环,转向兴趣驱动的活动,最终出现职业多样性的爆发,“更多人可能变得更快乐了一些”。
《晚点聊》第 121 期中,当时刚卖掉房子、清理了大量物品,和家人搬进一辆房车里的黄东旭给出的答案是:体验——来到这个世界,体验这段旅程,“大模型不能替你活过”。
自大模型热潮以来,每个春节似乎都有意外发生:23 年是 ChatGPT,24 年是 Sora,25 年是 DeepSeek-R1,26 年春节,会是什么?
不管是什么,它都会出现在我们之后的节目和文章里。AI 的轨迹仍在延续,我们的记录也是。
2026-02-15 21:53:31
浏览次数: 次
返回列表
友情链接:





