×

端侧AI研报:26年或是拐点之年

wang wang 发表于2026-05-04 19:35:39 浏览1 评论0

抢沙发发表评论

端侧AI研报:26年或是拐点之年

维米尔的《倒牛奶的女仆》)

*

阿姆斯特丹国立博物馆里挂着一幅画——维米尔的《倒牛奶的女仆》。一个普通的女仆,站在一个普通的厨房里,把牛奶从陶罐倒进碗里。“光”从窗户斜斜地照进来,落在她的额头、她的手、桌上那一小块面包上。

这幅画在 1658 年画出来的时候有点特别。在它之前,欧洲的画家们画国王、画圣母、画战争——意义总是在大事上、在中心。维米尔是第一批把“光”画到一个倒牛奶的女仆身上的人。意义从中心转移到边缘,从宫廷转移到厨房,从神圣转移到一只手和一只碗之间的那一寸。

这跟 AI 现在正在发生的事很像。

云端推理的故事我已经写过几篇,最容易记住的一个判断就是:10 块钱 AI 算力账单里 8 块花在推理。

而当时讲的推理其实主要还是云端的,实际上,还有另一种推理。手机、PC、汽车、机器人、眼镜里本地跑的 AI。它和云端推理的差别是前者发生在用户身上,后者发生在某个大厂的云服务器里。

当前讨论端侧的文章还不多,模型不够小、跑不动。GPT-4 在云上才勉强够用,放到手机上根本是天方夜谭。

但 2026 年开始,“光”开始落到边缘了——26年可能进入了端侧AI的拐点。

一、为什么 2026 年可能是拐点

端侧 AI 真正进入“拐点”需要什么条件?

我认为需要四个条件同时成立:

  1. 模型够小——能在受限设备上跑得动(算法层准备好)
  2. 硬件够强——NPU 算力 + 内存带宽 + 能效比同时跨过门槛(硬件层准备好)
  3. 杀手级应用接近兑现——系统级智能体、大模型版 Siri、AI 眼镜这类“不是演示 demo 是真的能用”的体验出现(应用层准备好)
  4. 经济驱动力转向端侧——云端推理边际成本曲线 + 隐私法规推动 + 内存成本约束让端侧从“好选择”变成“必要条件”(商业层准备好)

如果有一个条件没成立,就不是拐点。

下面逐一论证 2026 年这四个条件首次同时成立

1.1 算法层:小模型真正跨过了实用门槛

衡量端侧大模型是否“够用”,不能简单看是否接近云端旗舰。更稳的标准是:在 4-bit 量化、有限内存、有限功耗下,能不能稳定承担高频轻任务。

2026 年的关键变化不是端侧小模型已经追平 GPT-4 / GPT-5,而是它们第一次进入了“可常驻、可调用、可承担高频轻任务”的实用区间:

  • 微软 Phi-4-mini(38 亿参数):基础知识能力(业内常用 MMLU 标准测试,5-shot 约 67%),4GB 内存可运行
  • 苹果端侧基础模型(约 30 亿参数):针对苹果自研芯片里的神经网络引擎(专门跑 AI 任务的硬件单元,相当于安卓手机里的 NPU)做了端侧优化,2025 年 6 月开发者大会通过“基础模型框架”向开发者开放
  • 谷歌 Gemma 3(40 亿参数):MMLU 约 60%,2GB 内存可运行
  • 小米 MiMo-V2-Pro / V2.5(万亿总参数 / 420 亿激活参数,混合专家架构):2026 年 3 月 11 日以“Hunter Alpha”匿名身份登陆开发者模型平台 OpenRouter,一周内调用量超过 1 万亿 token(token 是大模型处理文本的最小单位),3 月 18 日揭晓为 MiMo-V2-Pro

这些模型已经能稳定处理摘要、轻量问答、系统级助手、工具调用、简单代码和本地信息检索等任务。虽然和 GPT-5、Claude Opus、Gemini Ultra 这一档云端旗舰相比,在长链推理、复杂代码、专业领域知识深度上仍有明显差距,但这种差距是正常的。重点是门槛被跨过,对端侧 AI 落地这一点开始有意义了。

谷歌 DeepMind(谷歌旗下的 AI 实验室)的 CEO 哈萨比斯(Demis Hassabis)在 2026 年 4 月 29 日的 Y Combinator 播客上专门讲了这件事——蒸馏(把大模型的能力压缩到小模型里的技术)后的小模型可以达到前沿大模型约 95% 的能力,成本只有 1/10;而剩下那 10% 的差距,在大多数实际工作场景里被速度带来的迭代收益完全覆盖。他那场播客,我印象的一个感触就是,他传达出一个理念:“速度本身就是产品”。

哈萨比斯说:除了成本和速度,把这些模型放到端侧跑,是出于效率、隐私和安全的考虑——尤其对家用机器人这种需要处理私人信息、需要实时响应的场景,本地高效模型是必需品,不是可选项。

这是谷歌一号位第一次把端侧/小模型路线明确说成“DeepMind 的核心优势之一”。到此,苹果、微软、谷歌,三大平台公司在端侧 AI 上的态度第一次同向。

1.2 硬件层:NPU、内存、能效首次同时跨过门槛

端侧大模型推理是“带宽受限”的工作负载——不是算力不够,是数据传输跟不上。所以硬件层准备好需要 NPU(神经网络处理单元,芯片里专门跑 AI 任务的硬件,下文同)+ 内存带宽 + 能效比三个变量同时跨过门槛。

NPU 算力:2025-2026 年旗舰芯片 NPU 算力全面进入 35-100 TOPS(万亿次运算每秒)区间。Counterpoint 数据显示,2025 年高端手机 SoC(系统级芯片,把 CPU、GPU、NPU、基带等集成到一块芯片里)中 88% 已支持生成式 AI,峰值 AI 性能从 2021 年的约 25 TOPS 提升到 2025 年的接近 100 TOPS。

芯片
NPU 算力
工艺
时间
苹果 A19 Pro
神经网络引擎 + GPU 内置神经加速器分布式架构
台积电 3nm(N3P 工艺)
2025.9
高通骁龙 8 Elite Gen 5
Hexagon NPU(同代 +37%,官方未给具体 TOPS)
台积电 3nm
2025.9
高通骁龙 X2 Elite
80 TOPS
台积电 3nm
2025.9 发布、2026 上半年上市
联发科天玑 9500
约 100 TOPS(NPU 990 + 存内计算)
台积电 3nm
2025.9
苹果 M5
16 核神经网络引擎 + 每个 GPU 核心内置神经加速器
台积电 3nm
2025.10

内存层:40 亿参数模型在 4-bit 量化(一种压缩模型的技术,让模型在端侧能跑得动)下约需 2-3GB 内存,加上模型推理时的临时缓存、操作系统、其他应用,手机至少需要 8GB 起步。除了内存大小,带宽也非常关键——A19 Pro 用的 LPDDR5X-9600 内存提供约 76.8 GB/s 带宽,比上一代提升一档。SK 海力士 2026 年 3 月完成新一代 1c 工艺的 LPDDR6 验证(速度提升 33%、能效提升 20%+),可能首发于 iPhone 18 系列。

能效比:高通骁龙 X2 Elite Extreme 笔记本宣传续航 25 小时;苹果 M5 MacBook Pro 续航接近 24 小时。这是端侧大模型常态化运行的前提——耗电不能让设备变成“只能插电用的工具”。

1.3 应用层:系统级智能体首次出现

芯片再快、模型再小,如果没有“真正改变用户日常”的应用,端侧 AI 就只是噱头。

2026 年初首次出现两个系统级的智能体(AI Agent,能自主执行多步任务的 AI 程序,下文同)动作:

微软智能体启动器(Microsoft Agent Launchers,2025 年 12 月 19 日)。微软推出了一个新框架——开发者可以通过一个数字身份文件,把 AI 智能体直接注册到操作系统层。智能体可以出现在任务栏、微软副驾(Copilot)内、其他应用里。这不是某个应用加了 AI 功能,是操作系统底层提供了一个“智能体调度框架”。Microsoft 365 Copilot 已经用这个框架注册了“Analyst”(数据洞察)和“Researcher”(深度报告)两个示例智能体。

智能体启动器目前还在测试通道,不是正式版的大规模落地。但意义在于——微软开始把智能体从“应用功能”提升为“系统级调度对象”。这一动作有点像微软 1990 年从 MS-DOS 转向 Windows 3.0——让 Windows 重新成为“软件平台”

苹果智能 + 基础模型框架(2025 年 6 月开发者大会发布)。苹果同样把端侧大模型暴露给了开发者——任何 iPhone 应用都可以通过这个框架调用苹果的 30 亿参数端侧模型。苹果的架构是“端侧优先”:默认所有请求先在本地神经网络引擎(苹果芯片内置专门跑 AI 任务的硬件单元,相当于安卓手机里的 NPU)处理,只有需要更大模型的复杂任务才路由到苹果的私有云端计算(Private Cloud Compute,简称 PCC,是苹果自己建的一套云端 AI 架构,服务器跑在苹果自研芯片上,且苹果自己看不到用户数据)。PCC 本身也跑在苹果自研芯片上——苹果把端侧的隐私架构延伸到了云端。

大模型版 Siri 一直延期——目前最新目标是 iOS 26.5 或 iOS 27(2026 年 6 月开发者大会会有进一步信息。但“基础模型框架”这一动作的意义不在于 Siri 本身,而在于端侧大模型从苹果一家用变成所有 iPhone 应用都可用

这两个动作的实质,是系统级智能体第一次有了清晰的早期信号——AI 开始从“某个应用的功能”延伸为“整个操作系统的能力”。还没到大规模落地,但底层框架已经在搭。

应用层条件具备早期证据

1.4 商业层:经济、监管、成本三股力量一起推

最后一层是商业驱动力——为什么是“现在”非要做端侧 AI、而不是再等等。

第一股力量:云端推理的边际成本曲线。云端大模型每一次查询都有边际成本。当 AI 渗透到操作系统底层(屏幕分析、输入辅助、实时翻译这种高频调用),完全走云端的服务器 + 电费成本会爆炸。Microsoft 365 Copilot 30 美元/月企业版的天花板就是 token 成本。端侧算力是“一次性硬件买断 → 零边际成本本地推理”——这是端侧 AI 真正的根本经济驱动力。

第二股力量:隐私法规和企业端合规。欧盟 GDPR、加州 CCPA 这些数据保护法规推动企业必须把敏感数据保留在本地。这件事对企业端比消费者端更直接——企业端有合规义务,不是“想”端侧 AI,是“必须”端侧 AI。医疗记录、财务数据、商业机密这些数据上云本身就是合规问题。

第三股力量:内存成本反向施压。这一股力量大家可能会觉得意外。

2025 年下半年开始,全球 DRAM(内存)/NAND(闪存)出现了结构性短缺——AI 数据中心用的高带宽内存(HBM)产能大涨,厂家减少普通手机内存(LPDDR)出货,让 DRAM 现货价格在 2025 年涨了 171%(其中 LPDDR 同样面临严重短缺,部分订单交付周期已延至 26-39 周)。Gartner 在 2026 年 2 月预测:2026 年底前内存 + 固态硬盘综合价格较 2025 年再涨约 130%,PC 售价上涨 17%、智能手机售价上涨 13%。IDC 在 2026 年 2 月把 2026 年 PC 出货预测从原本的 -2.4% 大幅下调到 -11.3%,手机也将下行。

这件事看起来是端侧 AI 的逆风。但仔细看,它其实是端侧 AI 的催化剂——内存涨价让“云端便宜端侧贵”的旧账算不下去了。原本一台手机加 4GB 内存可能多花 20 美元,现在多花 100 美元;如果云端 AI 每次查询又要花 token 费,用户和厂商都会被推着选“内存够大、本地跑模型”的路径

Counterpoint 在 2026 年 1 月的研报里已经明确:“2026 年手机芯片出货预计下降 7%,但收入双位数增长——驱动力来自高端化、内存涨价、AI 功能采用”。4月底 Q1 2026 实际数据显示手机芯片出货同比 -8%,进一步把全年预期下调至“双位数下滑”,但收入仍预期双位数增长——这印证了“数量降、价值升”的结构性变化

1.5 合在一起看

拐点的证据密度第一次足够高。但真正的验证要等到 2027-2028 年——大模型版 Siri 实际兑现度、AI PC 实际渗透曲线、智能眼镜从 1500 万到 5000 万副的爬坡能否完成、特斯拉 Optimus 100 万台/年产线能否真的跑起来。

证据变成事实需要时间。

前面提到的哈萨比斯在 4 月 29 日的那场播客上,从另一个角度讲了同一件事。主持人 Garry Tan 问他:现在我们似乎在用越来越大的模型追求智能,但同时也看到模型蒸馏让小模型跑得更快——比如谷歌的 Flash 模型用前沿模型 1/10 的成本就能达到 95% 的能力,是这样吗?

哈萨比斯确认了,并且说这一直是谷歌最大的优势之一。他接着补了三层意思:

第一层,小模型不只是便宜,更重要的是速度。“速度本身就是产品”——不管是写代码还是别的工作,快带来的迭代收益远超那 10% 的性能差距。也就是说,端侧小模型不是“云端模型的次等替代品”,是另一种产品形态。

第二层,小模型放到端侧跑是为了效率、隐私和安全。他特别点名家用机器人——处理极度私密的信息、需要实时响应的场景,本地高效模型是必需品,不是可选项。

第三层,他把蒸馏 + 端侧路线称为“DeepMind 的核心优势之一”。这是谷歌一号位第一次把端侧小模型路线明确提到战略级别。算上苹果智能 + 基础模型框架、微软副驾 + 智能体启动器,三大平台公司在端侧 AI 上的态度第一次同向。

所谓拐点,不只是“条件凑齐了”,是“最有资格判断的人,正在用最大的资源把它推过去”。

拐点的证据密度第一次足够高。

二、五个场景测算与拆解

端侧的五大主战场是手机、电脑、智能眼镜、汽车端侧 AI、人形机器人。五个场景的核心数据一览:

场景
2026 出货量级
单机 NPU 算力
单机端侧 AI 增量价值
2026 端侧 AI 增量市场
智能手机
约 11.2 亿部
35-100 TOPS
20-50 美元
约 140 亿美元
AI PC
约 1.4 亿台
38-80 TOPS
50-150 美元
约 140 亿美元
智能眼镜
超过 1500 万副
5-10 TOPS
300-800 美元(整机均价)
约 75 亿美元
汽车端侧 AI
6000-8000 万套
10-2000 TOPS
50-2000 美元
80-100 亿美元
人形机器人
5-10 万台
275-2070 TFLOPS
5000-15000 美元
约 7.5 亿美元

这里"TOPS"(每秒万亿次运算)是 NPU 峰值算力,不同芯片对应不同精度,用来比较场景间相对量级,不是绝对值。

下面分三个视角讲——单机价值密度、芯片端格局、拐点的强弱环节——而不是按场景平铺。

2.1 单机价值密度的反比规律

把这张表横着读,会看到一条清晰的反比曲线——出货量越大,单机端侧 AI 增量价值越低

最大基数的智能手机,全球 2026 年出货 11.2 亿部(IDC 2026 年 4 月最新预测,同比 -12.9%),单机端侧 AI 增量价值(NPU 部分 + 内存升级)20-50 美元。最小基数的人形机器人,2026 年出货预计 5-10 万台(Counterpoint、IDC 综合),单机端侧 AI 物料价值 5000-15000 美元——单机价值密度是手机的几百倍。

中间夹着 PC、眼镜、汽车三档。AI PC 单机 50-150 美元(NPU 集成 + 16-32GB 内存升级)、智能眼镜单机均价 300-800 美元(雷朋 Meta 299 美元起、雷朋 Meta Display 799 美元)、L2+/L3 汽车单机 200-2000 美元。

这条反比规律有两层含义。

第一层是商业上的:单机价值越高,量越小、客户越集中、议价权越强、毛利越好。所以人形机器人这条线虽然 2026 年总规模只有 7-8 亿美元(远小于其他四场景),但每多一台就是一个高毛利单元,拿到大客户订单的供应商弹性最大。汽车也是同样的逻辑——单车价值高、客户集中度也高,Mobileye 一家累计装机就 2.3 亿辆。

第二层是周期上的:量越大的场景,被宏观经济和供应链冲击撞得越疼。手机和 PC 这一波最直接被内存涨价撞上。Gartner 2026 年 2 月最新预测:2026 年内存(DRAM)+ 固态硬盘综合价格涨 130%,PC 售价涨 17%、智能手机售价涨 13%。IDC 连续几个月大幅下调预期,从年初的手机 -5%下调到-12.9%。

但内存涨价不只是逆风。它把"云端便宜、端侧贵"的旧账一起算翻了——原本一台手机加 4GB 内存可能多花 20 美元,现在多花 100 美元;如果云端 AI 每次查询又要花 token 费,用户和厂商都会被推向走"内存够大、本地跑模型"的路径。Counterpoint 2026 年 4 月的最新数据是:手机芯片出货 Q1 2026 同比 -8%,全年预期"双位数下滑"——但收入仍是双位数增长。这就是手机行业首次出现的"数量降、价值升"。

放到端侧 AI 这条主线上看,结论很清楚——手机和 PC 这一年量在收缩、但端侧 AI 渗透率还在上升。Counterpoint 数据:2025 年 GenAI 智能手机芯片渗透率 35%(同比 +74%),2027 年累计安装基数预计突破 10 亿台。AI PC 这边,Gartner 2025 年 8 月曾预测 2026 年出货 1.43 亿台、渗透率 55%;但 2026 年 2 月又因内存涨价压力,把 AI PC 达到 50% 渗透率的时点推迟到 2028 年。

按这些数字粗估,2026 年五场景端侧 AI 增量市场加起来约 400-450 亿美元,相当于云端 AI 服务器市场的 1/8 左右(Gartner 给云端 AI 服务器 2026 年 3530 亿美元)。绝对体量比云端小一个数量级,但结构性增长在起步。

2.2 芯片端格局对比

芯片也是这一波端侧 AI 投资的核心问题,五个场景的芯片端格局非常不同——手机和 PC 是结构已定的存量战,眼镜和汽车是格局松动中的进攻战,机器人是从 0 到 1 的卡位战。

手机:苹果 + 高通 + 联发科三国杀

GenAI 智能手机芯片市场份额(Counterpoint 2025 年 9 月)已经收敛到三家——苹果 46%(A19 / A19 Pro,神经网络引擎 + GPU 内置神经加速器分布式架构)、高通 35%(骁龙 8 Elite Gen 5,Hexagon NPU)、联发科 12%(天玑 9500,NPU 990 + 存内计算,约 100 TOPS)。其余 7% 是三星 Exynos + 其他。

这场战役真正的看点不在旗舰段,而在中端段。Counterpoint 数据:300-499 美元价位段 GenAI 手机芯片出货 2025 年同比 +3 倍,占该价位段 38%——其中高通占 57%(用骁龙 700 / 6 系列下探),联发科靠天玑 8000 系列开创该价位段。中端化决定 2026-2027 年渗透曲线,比旗舰段更重要。

PC:高通从 0 进攻、x86 防守

AI PC 处理器有四家主要玩家:

高通骁龙: X2 Elite / X2 Elite Extreme NPU 80 TOPS(CES 2026 推出,3nm 第三代 Oryon CPU、NPU 性能比上代提升 78%) 英特尔 :Core Ultra Series 3(Panther Lake)NPU 50 TOPS AMD: Ryzen AI 300/400 系列 50-55 TOPS 苹果: M4/M5 38+ TOPS。

高通的位置很特殊——这是它从"手机基带和芯片公司"延伸到 PC 的进攻战。微软 2026 年初数据:用骁龙 X2 Elite 的笔记本 90% 时间已经能在原生 Arm 应用里运行——Arm 在 PC 上的应用兼容性问题,过去十年一直是高通进 PC 的最大障碍,这个数字现在已经被解决了大半。

有一个容易被忽略的组合是英伟达 + 联发科。两家联合设计的 GB10 Grace Blackwell 超级芯片是 DGX Spark 桌面级 AI 工作站的核心——2025 年 10 月 15 日上市,初始售价 3999 美元;2026 年 2 月底因内存涨价升至 4699 美元(+18%)。这是新品类,本地能跑 2000 亿参数模型(FP4 量化)。联发科首次进入"桌面级 AI 工作站"。

整机品牌端,联想 AI PC 全球市占第一(约 31%),其次惠普、戴尔、苹果、华硕、宏碁。

眼镜:高通近乎垄断

智能眼镜芯片目前是高通的天下——骁龙 AR1+ Gen 1 几乎覆盖整个非苹果阵营。2026 年 MWC 上联发科展示了"天玑 AI Omni 体验"挑战这一格局,把天玑 9500 的 NPU 用到智能眼镜上跑全模态大模型。但格局松动需要联发科真正拿到 Meta、Rokid、雷鸟这类客户,目前还没看到。

整机端的事实更清晰。Omdia 2026 年 3 月数据:2025 年全球 AI 眼镜出货 870 万副(同比 +322%),其中 Meta 占 85.2%、出货 740 万副(同比 +281%;依视路-陆逊梯卡 Q4 2025 财报披露的数字是"超 700 万副")。2026 年预期超过 1500 万副。其他玩家——Rokid(中国领先,全球向上)、小米(中国大陆第二)、XREAL、雷鸟 / 字节跳动 / Even Realities——加起来约 14.8% 份额,争夺剩余空间。

带屏幕的"显示型"AI 眼镜 2025 年从无到有跑出 73 万副。Meta 雷朋 Meta Display 2025 年 9 月以 799 美元上市、2025 年出货 84,000 副且供不应求。这个细分品类是 2027 年苹果智能眼镜潜在进场前的窗口期。

汽车:五家分

汽车端侧 AI 是格局最分散的一个场景,前五家份额加起来约 70%。

玩家
累计装车
2026 年节奏
Mobileye
2.3 亿辆+(10-K 截至 2025.12.27)
Q1 2026 营收 5.58 亿美元(同比 +27%、调整后营业利润 +61%),全年指引上调至 19.75 亿美元,宣布 2.5 亿美元股票回购,2.3 亿辆装机 + 50+ 车企客户
特斯拉(自用)
全球车队 920 万辆,FSD 订阅 128 万
AI5 2026.4.15 完成 tape-out(TSMC + Samsung 双源),量产 mid-2027;FSD 累计行驶超 100 亿英里
华为 ADS
170 万辆+(2026.3 末)
2026 目标累计 300 万辆;问界、智界、阿维塔等 80+ 款车型;ADS 5.0 2026 北京车展发布
地平线
征程系列 2025 年单年出货 401 万颗(+38.8%)、累计超 1000 万颗
2025 全年营收 37.58 亿元(+57.7%),中高端智驾产品出货同比近 5 倍;管理层 2027 年盈亏平衡指引
英伟达 DRIVE
未公开总装车
FY2026 全年汽车业务 23 亿美元(+39%),Q4 单季 6.04 亿;DRIVE Thor SoC 已量产;DRIVE Hyperion 10 接入 Mercedes、Aeva、Hesai、Bosch 等
高通骁龙 Ride
未公开总装车
Q1 FY2026 汽车业务 11 亿美元(+15%),连续第二个季度超 10 亿;FY2026 退出年率超 60 亿;FY2029 指引 80 亿

几个观察。

第一,Mobileye 的规模碾压——2.3 亿辆装机基础是其他所有玩家加起来的若干倍。它不是技术最强,是"客户已经在用、车规已经过"的存量基础。欧洲 GSR 强制的是基础 ADAS 安全功能,不等同于强制 L2+ 或 L3。它会推高 ADAS 标配率,从而利好 Mobileye 这类有大规模装机基础的供应商; L3 订单归属仍取决于 OEM 策略、法规落地、算法开放度和成本。

第二,华为是增长最快的——2025 年 8 月才超过 100 万辆装机,2026 年 3 月已超 170 万辆,2026 年目标 300 万辆——9 个月内 ADS 装机翻番,这种增速在汽车行业极其少见。但华为车 BU 不上市,普通投资者无法直接参与。

第三,特斯拉自研自用不卖给别人。AI5 流片已经比公司原计划晚了将近两年(最初承诺 2025 下半年装车,实际量产推到 mid-2027)。投特斯拉不是投"汽车端侧 AI"纯标的,是投"FSD + Optimus + Robotaxi + 能源"一篮子赌注。

中国第二梯队:黑芝麻智能(2533.HK)2025 全年营收 8.22 亿元(+73.4%),主要在中低端市场,和地平线规模差 4.5 倍。

机器人:英伟达卖水 + 特斯拉自研

人形机器人芯片格局非常清晰——英伟达 Jetson AGX Thor 是事实标准(2070 FP4 TFLOPS、128GB 内存、40-130W 功耗、$3499 起,2025 年 8 月正式发售)。早期采用客户:Agility Robotics、Amazon Robotics、Boston Dynamics、Caterpillar、Figure、Hexagon、Medtronic、Meta;评估中:1X、John Deere、OpenAI、Physical Intelligence。

特斯拉走相反路径——AI5 自研、TSMC + Samsung 双源代工、量产 mid-2027。

中国独角兽——宇树(2025 年出货 5500+ 台,G1 起售 9.9 万人民币)、智元(5168 台)、银河通用、UBTECH(约 600 台)——大多没上市。Counterpoint + Omdia 综合数据:2025 年全球人形机器人出货 1.3-1.8 万台,中国厂商占约 90%。Tesla Optimus、Figure AI、Agility 各约 150-200 台。

2.3 拐点的最弱环节

回到这一篇文章最早的判断——2026 年是端侧 AI 的拐点,但不同场景跨过临界点的"成色"差距很大。

已经在跑、可见早期事实的:

手机这一波内存涨价反向催化端侧 AI——Counterpoint 4 月已确认"出货下滑、收入双位数增长"。

PC 这边微软 Windows 10 EOL(2025 年 10 月 14 日支持终止)+ AI PC 营销周期 + 微软副驾 / 智能体启动器底层框架三件事一起推,即使内存涨价拉低了一点,渗透率仍在 50% 上下。

智能眼镜更明确——Meta-依视路-陆逊梯卡联盟 2025 年从 200 万副跃升到 740 万副;1000 万副年产能目标原定 2026 年底达成、目前预期提前完成;彭博 2025 年 12 月报道 Meta 与依视路-陆逊梯卡讨论把产能扩到 2000 万-3000 万副。

要等到 2027-2028 才出现的:

大模型版 Siri:iOS 26.4(2026 年 4 月发布)没有包含;目前推迟到 iOS 26.5 或 iOS 27(2026 年 6 月开发者大会会有进一步信息)。如果实际表现压不住云端 Gemini / Claude,整个苹果端侧 AI 路线会被重新质疑。

汽车 L2+ → L3 过渡:2026 年欧盟通用安全法规已开始强制 L2+,中国 L3 试点 2025 年开始。但全国大规模 L3 普及还要 2-3 年时间——这件事最直接的受益者是 Mobileye 和地平线。

人形机器人量产爬坡:特斯拉 2025 年完全跳票(承诺 1 万台、实际只出几百台、Musk 在 2026 年 1 月财报会上承认"无一台在做有用的工作",2026 年 4 月又把 Optimus V3 量产从年初推到夏季)。Fremont 100 万台/年和德州 1000 万台/年只是公司目标——汽车行业产能爬坡历史告诉我们,实际速度通常是计划的 1/3 到 1/2,机器人比汽车复杂,比例只会更低。

单算力来看,2026 年五场景新增端侧算力的相对量级是这样的

  • 手机一年新增约 27.5 ZOPS(每秒 10²¹ 次运算)

  • PC 约 7 ZOPS

  • 汽车 3.4 ZOPS

  • 机器人 0.075 ZOPS

  • 眼镜 0.12 ZOPS。

  • 手机和 PC 是绝对量的主战场,但单机价值密度低;

  • 汽车是"算力总量 × 单车价值"双高的中位场景;

  • 机器人现在很小,但"如果"特斯拉得州工厂真按公司目标跑出 1000 万台/年,单年增量算力就是 10 ZOPS——约为手机一年总增量的三分之一。

三、价值流向:谁吃肉,谁只是沾边

端侧 AI 这场战役里,谁能赚到钱,跟谁打仗赢了关系不大,跟“在产业链上占什么位置”关系最大。

3.1 产业链的八层结构

把端侧 AI 的产业链拆开,价值会沉淀在八个层次:

  • 芯片设计软件 / 知识产权授权(Cadence、Synopsys、Arm)
  • NPU/GPU/CPU 知识产权(Arm、自研架构)
  • 芯片设计(苹果、高通、联发科、Mobileye、地平线、英伟达 Jetson)
  • 代工 + 先进封装(台积电独占)
  • 内存(SK 海力士、三星、美光、南亚、华邦)
  • 整机代工 / 模组(歌尔、立讯精密、舜宇、广达、纬创)
  • 整机品牌(苹果、三星、小米、Meta-依视路-陆逊梯卡、各车厂、机器人厂)
  • 操作系统 + 模型 + 应用层(苹果智能 / 安卓 AICore / 微软副驾 + Llama / Qwen / Gemma)

每一层的特性不同:

层次
玩家集中度
毛利率
受益逻辑
芯片设计软件 + 知识产权
极度集中(Cadence/Synopsys/Arm 三家寡头)
70-95%
越多边缘芯片设计越受益,但增速跟下游耦合
NPU/GPU/CPU 知识产权
Arm 主导
Arm 毛利 95%+
端侧每出一颗芯片都在交税
芯片设计
集中(手机/PC 5-6 家、汽车 5 家)
50-70%
主战场,最受关注
代工/封装
完全垄断(台积电)
60%+
端侧 + 数据中心同抢产能
内存
寡头(三星/海力士/美光合计 78%)
15-50%(周期性)
涨价时受益最直接
整机代工/模组
较分散
2-10%
量大但利润薄
整机品牌
各场景 5-10 家头部
5-25%
看品牌溢价能力
操作系统 + 模型
极度集中(苹果/微软/谷歌)
极高(操作系统是平台税)
端侧 AI 推动操作系统价值重估

3.2 价值转移:操作系统级智能体化

这件事是端侧 AI 这一波最容易被忽略的产业重构。当底层硬件 + 端侧小模型足够强大,操作系统通过底层智能体直接拦截用户意图,统筹调度第三方应用获取数据和服务

例子:

  • 你跟 Siri 说“帮我订下周飞东京的机票”
  • 大模型版 Siri 在本地大模型理解意图、读取你的日历、邮件、习惯偏好
  • 通过苹果应用意图(App Intents)框架调度航空公司应用完成订票
  • 你不需要打开任何应用

这件事如果跑通——传统独立应用开发商面临被“管道化”的风险。价值从“应用内的体验”转移到“操作系统 + 智能体 + 数据入口”。

谁是直接受益者?

  • 苹果:iOS + 苹果智能 + 基础模型框架 + 25 亿活跃设备
  • 微软:Windows 11 + 副驾 + 智能体启动器 + 企业市场
  • 谷歌:安卓 + 端侧 Gemini Nano + DeepMind 蒸馏能力。哈萨比斯在 2026 年 4 月公开把端侧小模型路线列为 DeepMind 的核心优势之一,这是谷歌第一次把端侧 AI 提到战略级别讲
  • 小米:澎湃 OS + MiMo 大模型 + 手机/AIoT/汽车一体生态(中国市场极强)

这一轮端侧 AI 推动的是“操作系统级智能体化”——真正的操作系统厂商(苹果、微软、谷歌、小米、华为)是最大隐性赢家

3.3 端侧 AI 的分散结构

全球四大 AI 芯片设计商(英伟达、AMD、谷歌、亚马逊)在 2025 年吃掉了全球约 90% 的 CoWoS 先进封装产能 + HBM 内存供应,但他们用掉的台积电先进制程晶圆产能(造芯片本体的环节)只有约 12%。换句话说,AI 芯片的真正瓶颈不在“造芯片”这一步,而在“把芯片和内存堆叠封装在一起”这一步——晶圆产能还有空间,封装和内存却被挤爆了。

但端侧 AI 的结构与瓶颈完全不同:

场景
更主要的瓶颈
手机
先进制程、LPDDR 带宽、内存容量、电池、散热
AI PC
NPU/GPU、统一内存、Windows Arm/x86 软件生态
智能眼镜
功耗、散热、光学模组、重量、佩戴舒适度
汽车
车规认证(汽车安全完整性等级 ASIL)、安全冗余、软件栈、法规责任
机器人
执行器、实时控制、能耗、可靠性、数据闭环

端侧芯片大多用 InFO(成本更可控的封装技术),不是 CoWoS-S/L 这种数据中心专用封装,这样的话产能不是太大问题,而卡点更多在 LPDDR 供应(已经因 HBM 挤出而出现结构性短缺)和功耗散热设计。

所以端侧AI爆发的话,对内存的需求会更直接——这一条建议结合本人HBM研报、高通研报、海力士研报一起看会比较清楚。

3.4 看起来沾边端侧但实际不直接受益的玩家

  • 英特尔:高通在 AI PC 这条线很猛 ,现在英特尔的Lunar Lake / Panther Lake 在 NPU 性能和能效上落后骁龙 X2 Elite Extreme,英特尔在 Wintel 联盟里的话语权第一次被实质削弱。英特尔在 AI PC 周期里仍会受益(存量换机),但更多是被动跟随,不是边际变化最大的玩家。英特尔的真正赌注是 18A 工艺代工业务。
  • AMD:AI PC 市场存在感最弱的一个,锐龙 AI 没真正打出存在感。AMD 业务核心还是数据中心 GPU 和 EPYC 服务器 CPU。AI PC 对 AMD 同样是被动跟随。
  • 大部分整机厂:传音、安克、部分安卓 OEM、普通白牌硬件厂——它们卖得越来越多,但端侧 AI 的差异化主要在芯片层,整机厂拿到的是“跟着芯片厂跑”的红利,不是自己创造的红利。
  • 互联网公司(Meta/谷歌)的整体收入:Meta 智能眼镜业务一年几十亿美金收入,在 1700 亿总收入里几乎看不见。谷歌同样——端侧 Gemini Nano 影响安卓生态,但对谷歌财报短期影响小。除非业务做到“百亿级”否则不会反映到估值。

关键区分:AI PC 对英特尔和 AMD 是防守战,对高通是进攻战。

3.5 苹果这种“云 + 端”一体化玩家的特殊地位

最后留个伏笔——苹果通过私有云端计算(PCC)提出了“云端推理也跑在苹果自研芯片上”的设想。如果真的把端侧的隐私架构延伸到云端,会创造一个新的玩家品类——“软件定义的端云协同 AI”

这件事还没成型。但苹果通过基础模型框架打开开发者生态、再通过 PCC 给云端任务一个“苹果盒子”——这种“端 + 云”的全栈集成,在五年视角里是端侧 AI 最大的认知差。

四、端侧 AI 价值落在哪?

把端侧 AI 的产业链拆开,价值会沉淀在四个位置——设备入口、芯片设计、基础设施、关键零部件。 每一层的护城河不同、弹性不同、风险也不同。

4.1 设备入口:拥有用户的人

端侧 AI 真正的稀缺资源不是 NPU、不是模型,是装机基础

云端 AI 的护城河是数据中心 + 模型权重,谁都可以建。端侧 AI 的护城河完全不同——它需要 装机数量 + 操作系统 + 自研模型 三件事同时存在,缺一不可。装机决定能触达多少用户,操作系统决定能不能从底层调用资源,自研模型决定数据闭环握不握在自己手里。三件事任何一件外包,护城河就不成立。

这就是为什么真正的设备入口玩家寥寥——苹果(iOS + 25 亿活跃设备 + 苹果智能 + 基础模型框架)、小米(澎湃 OS + 10.79 亿 AIoT + 自研 MiMo 大模型 + 汽车)、华为(鸿蒙 + 自研昇腾 + 自研盘古)、Meta + 依视路-陆逊梯卡联盟(智能眼镜的新品类入口,全球市占 85.2%)。其他手机厂、其他眼镜厂都只能算"使用入口"的人,不算"拥有入口"的人。

市场对设备入口层最大的认知偏差,是用消费电子的估值给它定价。但端侧 AI 时代的设备入口公司,本质上是 “中长期的 AI 平台公司 × 短期的硬件周期公司” 的混合体——估值要看长期那一半。

4.2 芯片设计:场景跨得越宽越值钱

这一层是市场最关注、估值波动最大的位置。判断这一层有一条核心标准——场景宽度

一家芯片公司只跑一个场景(比如只做手机 SoC),估值跟随该场景周期上下波动;如果能把同一套低功耗 AI 芯片能力同时迁移到手机、PC、眼镜、汽车、机器人多个终端形态,估值就能跨越单一周期。

高通是这条逻辑最典型的标的——五个场景全覆盖的唯一玩家。它真正的重估逻辑不是某颗骁龙芯片多了多少 TOPS,而是它能不能把手机时代积累的低功耗芯片能力迁移到所有新终端。一旦市场把它从"手机基带 + 芯片公司"重新定价为"端侧 AI 全场景平台公司",估值结构会被重写。

联发科是被低估的版本——出货量大、和英伟达联合设计 GB10 桌面级 AI 工作站打开了新品类、智能眼镜赛道也在布局。

它的故事和高通像,慢了几年。

垂直场景里——Mobileye / 地平线在汽车 ADAS、英伟达 Jetson 在机器人——这些公司只赌一个场景。弹性大、风险也集中。垂直场景标的的核心问题不是"它技术多强",是"那一个场景什么时候真正放量"。

4.3 基础设施:每颗芯片都要交税

这一层最不"性感"、但最不可绕过——端侧每多一颗芯片、每多一 GB 内存,钱都会流过这里。

Arm 是 CPU 指令集的隐形税基。云端、端侧、车规、机器人——只要用 CPU,几乎都基于 Arm。但要给一个限定:Arm 一统的是 CPU 指令集,不是 NPU。AI 推理的真正负载发生在 NPU 上,每家 NPU 都是自研的、互不兼容。Arm 的护城河"广而不深"。

台积电是物理底座。不管谁设计什么端侧芯片,最终都要到这里拿产能。先进制程 + 先进封装的双重瓶颈,让它在端侧 AI 周期里没有真正的替代者。

内存(SK 海力士、三星、美光)在这一波端侧 AI 里是逆向受益——HBM 挤出 LPDDR 产能 + 端侧 AI 推动设备内存增量需求 + AI 数据中心和消费设备共抢同一组产线,三件事一起把内存价格推到结构性高位。手机 PC 厂商被涨价压住毛利,内存厂吃到完整溢价。海力士的细节在我之前的海力士单篇研报里。

这一层的价值在持续性。

4.4 关键零部件:等下游哪个端先爆发

最后这一层是中国制造业的强项——光学、声学、精密代工、组装。它的特点是"被动受益"——自己不创造新故事,但下游某个端真的爆发时,弹性最大。

最值得看的是智能眼镜这条线——歌尔股份和舜宇光学。Meta 智能眼镜从 2025 年的 740 万副跃升到 2026 年预期 1500 万副,这两家最直接受益。中国 AR 眼镜行业波导 2026 年需求 160 万副里,能跑百万级产能的国内只有它们两家。歌尔 2025 年报披露"AI 智能眼镜呈现爆发性增长",净利率从 2023 年最低点的 1.1% 恢复到 4.1%,是产品结构升级的直接信号。

汽车端的零部件——舜宇车载镜头 + 立讯精密车规级模组——同样在等 L3 这个拐点。

人形机器人那条线,目前国内执行器(电机 + 减速器 + 丝杠,占人形机器人物料 60%+)有大量公司在跑,但还没出现明显的龙头——这一层还在格局未定的早期。

这一层完全看下游哪个端先放量。智能眼镜 vs 汽车 L3 vs 人形机器人,跑出哪个,对应那条供应链的零部件公司就跟着起。

把这四层放在一起看:设备入口和基础设施持续性最强、波动小芯片设计弹性最大、波动也最大关键零部件完全看下游某个端何时放量

每一层都有自己的赔率和确定性。这场端侧 AI 的故事不是赌某一家公司、某一颗芯片,而是判断哪一层、哪一个阶段最值得跟踪。

五、风险

5.1 内存涨价反向施压:是推进器也是风险

第一节我讲内存涨价是端侧 AI 的推进器——但它同样是风险。主要是整机厂利润压缩 + 中端机型 AI 化进度放慢

镜像那一面是存储厂商的长周期——SK 海力士、美光这些反而吃到完整溢价,HBM 和 LPDDR 双向受益。具体可以参考本人有关 HBM 和海力士的单篇研报。

5.2 云端 AI 价格下降反向压缩端侧空间

第一节讲了“云端推理边际成本”是端侧 AI 的根本驱动力。但这个论证有个隐含假设——云端推理价格不能下降太快,否则就没有很强的动力去到端侧。

2024 → 2026 年云端 AI 有效成本下降速度惊人,主要驱动力包括:

  • 模型本身的代际降价(OpenAI、Anthropic、谷歌各代模型)
  • 提示词缓存(prompt caching,把重复输入的部分缓存起来重复利用)等机制让输入 token 实际成本最高下降 90%
  • 蒸馏小模型 + 模型路由(按任务难度分配到不同模型)
  • 中国模型(DeepSeek、通义千问、MiMo 等)把价格再压低 5-10 倍

如果云端变便宜变快,端侧 AI 的“价值差”会被压缩到主要剩“隐私”、“低延迟”、“离线可用”和“操作系统常驻”几个维度——而隐私这件事大部分用户实际上不在意。

但反过来说,如果端侧推理的硬件进步速度超过云端价格下降速度,这种压缩会反向(端侧反而吃掉云端的部分应用)。

5.3 端侧大模型的“好用”标准还没建立

云端大模型有公开的标准化测试(MMLU 综合知识、HumanEval 代码、SWE-Bench Pro 工程任务等),端侧大模型的“在手机上好不好用”目前没有标准化评估。

如果大模型版 Siri 最终发布(iOS 26.5 或 iOS 27)后用户反馈“不如 ChatGPT”,这会立刻引发苹果端侧 AI 路线的根本质疑——也会冲击整个端侧 AI 板块的估值预期。

5.4 智能眼镜的“窗口期”可能比想象的短

Meta-依视路-陆逊梯卡联盟在 2025-2026 年的领先优势,前提是苹果智能眼镜还没发布。苹果在 2024 年开始内部调整 Vision Pro 团队,把智能眼镜级产品的优先级抬高。

如果苹果的智能眼镜在 2027-2028 年发布且产品力压过 Meta,这条线的故事会重写。

5.5 机器人量产的所有时间表都偏乐观——2025 年已被证明

特斯拉 2025 年初承诺 Optimus 出货 1 万台、实际只出几百台试产、马斯克在 2026.1 财报会议上承认“无一台在做有用的工作”、2026.4 又把 V3 量产从年初推到夏季——这是一个非常重要的提醒

特斯拉 100 万台/年产线(2026 年底 Fremont 工厂启动)、得州 1000 万台/年二代线(2027)、Figure 的宝马工厂部署、中国具身智能公司的所有时间表——基本都是“最乐观”版本。汽车行业的产能爬坡历史告诉我们,实际的爬坡速度通常是计划的 1/3 到 1/2。机器人比汽车复杂,这个比例只会更低。

如果 2026-2027 年人形机器人实际量产远低于市场预期,机器人侧的端侧 AI 故事会被重新定价。


结语

倒牛奶的女仆,已经站了三百多年。 

端侧 AI 的转折才刚刚开始,我们可以多一点耐心。

*

如果觉得有帮助请点赞转发、点击“在看”等,您的支持是我持续分享的最大动力,谢谢! 建议将本号“加为星标”。


关注我,在别人看热闹的地方,看到机会。


免责声明:本文内容基于公开资料整理,仅供学习研究参考,不构成任何投资建议。投资有风险,决策需谨慎。