端侧AI研报:26年或是拐点之年

（维米尔的《倒牛奶的女仆》）

阿姆斯特丹国立博物馆里挂着一幅画——维米尔的《倒牛奶的女仆》。一个普通的女仆，站在一个普通的厨房里，把牛奶从陶罐倒进碗里。“光”从窗户斜斜地照进来，落在她的额头、她的手、桌上那一小块面包上。

这幅画在 1658 年画出来的时候有点特别。在它之前，欧洲的画家们画国王、画圣母、画战争——意义总是在大事上、在中心。维米尔是第一批把“光”画到一个倒牛奶的女仆身上的人。意义从中心转移到边缘，从宫廷转移到厨房，从神圣转移到一只手和一只碗之间的那一寸。

这跟 AI 现在正在发生的事很像。

云端推理的故事我已经写过几篇，最容易记住的一个判断就是：10 块钱 AI 算力账单里 8 块花在推理。

而当时讲的推理其实主要还是云端的，实际上，还有另一种推理。手机、PC、汽车、机器人、眼镜里本地跑的 AI。它和云端推理的差别是前者发生在用户身上，后者发生在某个大厂的云服务器里。

当前讨论端侧的文章还不多，模型不够小、跑不动。GPT-4 在云上才勉强够用，放到手机上根本是天方夜谭。

但 2026 年开始，“光”开始落到边缘了——26年可能进入了端侧AI的拐点。

一、为什么 2026 年可能是拐点

端侧 AI 真正进入“拐点”需要什么条件？

我认为需要四个条件同时成立：

模型够小——能在受限设备上跑得动（算法层准备好）
硬件够强——NPU 算力 + 内存带宽 + 能效比同时跨过门槛（硬件层准备好）
杀手级应用接近兑现——系统级智能体、大模型版 Siri、AI 眼镜这类“不是演示 demo 是真的能用”的体验出现（应用层准备好）
经济驱动力转向端侧——云端推理边际成本曲线 + 隐私法规推动 + 内存成本约束让端侧从“好选择”变成“必要条件”（商业层准备好）

如果有一个条件没成立，就不是拐点。

下面逐一论证 2026 年这四个条件首次同时成立。

1.1 算法层：小模型真正跨过了实用门槛

衡量端侧大模型是否“够用”，不能简单看是否接近云端旗舰。更稳的标准是：在 4-bit 量化、有限内存、有限功耗下，能不能稳定承担高频轻任务。

2026 年的关键变化不是端侧小模型已经追平 GPT-4 / GPT-5，而是它们第一次进入了“可常驻、可调用、可承担高频轻任务”的实用区间：

微软 Phi-4-mini（38 亿参数）：基础知识能力（业内常用 MMLU 标准测试，5-shot 约 67%），4GB 内存可运行
苹果端侧基础模型（约 30 亿参数）：针对苹果自研芯片里的神经网络引擎（专门跑 AI 任务的硬件单元，相当于安卓手机里的 NPU）做了端侧优化，2025 年 6 月开发者大会通过“基础模型框架”向开发者开放
谷歌 Gemma 3（40 亿参数）：MMLU 约 60%，2GB 内存可运行
小米 MiMo-V2-Pro / V2.5（万亿总参数 / 420 亿激活参数，混合专家架构）：2026 年 3 月 11 日以“Hunter Alpha”匿名身份登陆开发者模型平台 OpenRouter，一周内调用量超过 1 万亿 token（token 是大模型处理文本的最小单位），3 月 18 日揭晓为 MiMo-V2-Pro

这些模型已经能稳定处理摘要、轻量问答、系统级助手、工具调用、简单代码和本地信息检索等任务。虽然和 GPT-5、Claude Opus、Gemini Ultra 这一档云端旗舰相比，在长链推理、复杂代码、专业领域知识深度上仍有明显差距，但这种差距是正常的。重点是门槛被跨过，对端侧 AI 落地这一点开始有意义了。

谷歌 DeepMind（谷歌旗下的 AI 实验室）的 CEO 哈萨比斯（Demis Hassabis）在 2026 年 4 月 29 日的 Y Combinator 播客上专门讲了这件事——蒸馏（把大模型的能力压缩到小模型里的技术）后的小模型可以达到前沿大模型约 95% 的能力，成本只有 1/10；而剩下那 10% 的差距，在大多数实际工作场景里被速度带来的迭代收益完全覆盖。他那场播客，我印象的一个感触就是，他传达出一个理念：“速度本身就是产品”。

哈萨比斯说：除了成本和速度，把这些模型放到端侧跑，是出于效率、隐私和安全的考虑——尤其对家用机器人这种需要处理私人信息、需要实时响应的场景，本地高效模型是必需品，不是可选项。

这是谷歌一号位第一次把端侧/小模型路线明确说成“DeepMind 的核心优势之一”。到此，苹果、微软、谷歌，三大平台公司在端侧 AI 上的态度第一次同向。

1.2 硬件层：NPU、内存、能效首次同时跨过门槛

端侧大模型推理是“带宽受限”的工作负载——不是算力不够，是数据传输跟不上。所以硬件层准备好需要 NPU（神经网络处理单元，芯片里专门跑 AI 任务的硬件，下文同）+ 内存带宽 + 能效比三个变量同时跨过门槛。

NPU 算力：2025-2026 年旗舰芯片 NPU 算力全面进入 35-100 TOPS（万亿次运算每秒）区间。Counterpoint 数据显示，2025 年高端手机 SoC（系统级芯片，把 CPU、GPU、NPU、基带等集成到一块芯片里）中 88% 已支持生成式 AI，峰值 AI 性能从 2021 年的约 25 TOPS 提升到 2025 年的接近 100 TOPS。

芯片	NPU 算力	工艺	时间
苹果 A19 Pro	神经网络引擎 + GPU 内置神经加速器分布式架构	台积电 3nm（N3P 工艺）	2025.9
高通骁龙 8 Elite Gen 5	Hexagon NPU（同代 +37%，官方未给具体 TOPS）	台积电 3nm	2025.9
高通骁龙 X2 Elite	80 TOPS	台积电 3nm	2025.9 发布、2026 上半年上市
联发科天玑 9500	约 100 TOPS（NPU 990 + 存内计算）	台积电 3nm	2025.9
苹果 M5	16 核神经网络引擎 + 每个 GPU 核心内置神经加速器	台积电 3nm	2025.10

内存层：40 亿参数模型在 4-bit 量化（一种压缩模型的技术，让模型在端侧能跑得动）下约需 2-3GB 内存，加上模型推理时的临时缓存、操作系统、其他应用，手机至少需要 8GB 起步。除了内存大小，带宽也非常关键——A19 Pro 用的 LPDDR5X-9600 内存提供约 76.8 GB/s 带宽，比上一代提升一档。SK 海力士 2026 年 3 月完成新一代 1c 工艺的 LPDDR6 验证（速度提升 33%、能效提升 20%+），可能首发于 iPhone 18 系列。

能效比：高通骁龙 X2 Elite Extreme 笔记本宣传续航 25 小时；苹果 M5 MacBook Pro 续航接近 24 小时。这是端侧大模型常态化运行的前提——耗电不能让设备变成“只能插电用的工具”。

1.3 应用层：系统级智能体首次出现

芯片再快、模型再小，如果没有“真正改变用户日常”的应用，端侧 AI 就只是噱头。

2026 年初首次出现两个系统级的智能体（AI Agent，能自主执行多步任务的 AI 程序，下文同）动作：

微软智能体启动器（Microsoft Agent Launchers，2025 年 12 月 19 日）。微软推出了一个新框架——开发者可以通过一个数字身份文件，把 AI 智能体直接注册到操作系统层。智能体可以出现在任务栏、微软副驾（Copilot）内、其他应用里。这不是某个应用加了 AI 功能，是操作系统底层提供了一个“智能体调度框架”。Microsoft 365 Copilot 已经用这个框架注册了“Analyst”（数据洞察）和“Researcher”（深度报告）两个示例智能体。

智能体启动器目前还在测试通道，不是正式版的大规模落地。但意义在于——微软开始把智能体从“应用功能”提升为“系统级调度对象”。这一动作有点像微软 1990 年从 MS-DOS 转向 Windows 3.0——让 Windows 重新成为“软件平台”。

苹果智能 + 基础模型框架（2025 年 6 月开发者大会发布）。苹果同样把端侧大模型暴露给了开发者——任何 iPhone 应用都可以通过这个框架调用苹果的 30 亿参数端侧模型。苹果的架构是“端侧优先”：默认所有请求先在本地神经网络引擎（苹果芯片内置专门跑 AI 任务的硬件单元，相当于安卓手机里的 NPU）处理，只有需要更大模型的复杂任务才路由到苹果的私有云端计算（Private Cloud Compute，简称 PCC，是苹果自己建的一套云端 AI 架构，服务器跑在苹果自研芯片上，且苹果自己看不到用户数据）。PCC 本身也跑在苹果自研芯片上——苹果把端侧的隐私架构延伸到了云端。

大模型版 Siri 一直延期——目前最新目标是 iOS 26.5 或 iOS 27（2026 年 6 月开发者大会会有进一步信息。但“基础模型框架”这一动作的意义不在于 Siri 本身，而在于端侧大模型从苹果一家用变成所有 iPhone 应用都可用。

这两个动作的实质，是系统级智能体第一次有了清晰的早期信号——AI 开始从“某个应用的功能”延伸为“整个操作系统的能力”。还没到大规模落地，但底层框架已经在搭。

应用层条件具备早期证据。

1.4 商业层：经济、监管、成本三股力量一起推

最后一层是商业驱动力——为什么是“现在”非要做端侧 AI、而不是再等等。

第一股力量：云端推理的边际成本曲线。云端大模型每一次查询都有边际成本。当 AI 渗透到操作系统底层（屏幕分析、输入辅助、实时翻译这种高频调用），完全走云端的服务器 + 电费成本会爆炸。Microsoft 365 Copilot 30 美元/月企业版的天花板就是 token 成本。端侧算力是“一次性硬件买断 → 零边际成本本地推理”——这是端侧 AI 真正的根本经济驱动力。

第二股力量：隐私法规和企业端合规。欧盟 GDPR、加州 CCPA 这些数据保护法规推动企业必须把敏感数据保留在本地。这件事对企业端比消费者端更直接——企业端有合规义务，不是“想”端侧 AI，是“必须”端侧 AI。医疗记录、财务数据、商业机密这些数据上云本身就是合规问题。

第三股力量：内存成本反向施压。这一股力量大家可能会觉得意外。

2025 年下半年开始，全球 DRAM（内存）/NAND（闪存）出现了结构性短缺——AI 数据中心用的高带宽内存（HBM）产能大涨，厂家减少普通手机内存（LPDDR）出货，让 DRAM 现货价格在 2025 年涨了 171%（其中 LPDDR 同样面临严重短缺，部分订单交付周期已延至 26-39 周）。Gartner 在 2026 年 2 月预测：2026 年底前内存 + 固态硬盘综合价格较 2025 年再涨约 130%，PC 售价上涨 17%、智能手机售价上涨 13%。IDC 在 2026 年 2 月把 2026 年 PC 出货预测从原本的 -2.4% 大幅下调到 -11.3%，手机也将下行。

这件事看起来是端侧 AI 的逆风。但仔细看，它其实是端侧 AI 的催化剂——内存涨价让“云端便宜端侧贵”的旧账算不下去了。原本一台手机加 4GB 内存可能多花 20 美元，现在多花 100 美元；如果云端 AI 每次查询又要花 token 费，用户和厂商都会被推着选“内存够大、本地跑模型”的路径。

Counterpoint 在 2026 年 1 月的研报里已经明确：“2026 年手机芯片出货预计下降 7%，但收入双位数增长——驱动力来自高端化、内存涨价、AI 功能采用”。4月底 Q1 2026 实际数据显示手机芯片出货同比 -8%，进一步把全年预期下调至“双位数下滑”，但收入仍预期双位数增长——这印证了“数量降、价值升”的结构性变化。

1.5 合在一起看

拐点的证据密度第一次足够高。但真正的验证要等到 2027-2028 年——大模型版 Siri 实际兑现度、AI PC 实际渗透曲线、智能眼镜从 1500 万到 5000 万副的爬坡能否完成、特斯拉 Optimus 100 万台/年产线能否真的跑起来。

证据变成事实需要时间。

前面提到的哈萨比斯在 4 月 29 日的那场播客上，从另一个角度讲了同一件事。主持人 Garry Tan 问他：现在我们似乎在用越来越大的模型追求智能，但同时也看到模型蒸馏让小模型跑得更快——比如谷歌的 Flash 模型用前沿模型 1/10 的成本就能达到 95% 的能力，是这样吗？

哈萨比斯确认了，并且说这一直是谷歌最大的优势之一。他接着补了三层意思：

第一层，小模型不只是便宜，更重要的是速度。“速度本身就是产品”——不管是写代码还是别的工作，快带来的迭代收益远超那 10% 的性能差距。也就是说，端侧小模型不是“云端模型的次等替代品”，是另一种产品形态。

第二层，小模型放到端侧跑是为了效率、隐私和安全。他特别点名家用机器人——处理极度私密的信息、需要实时响应的场景，本地高效模型是必需品，不是可选项。

第三层，他把蒸馏 + 端侧路线称为“DeepMind 的核心优势之一”。这是谷歌一号位第一次把端侧小模型路线明确提到战略级别。算上苹果智能 + 基础模型框架、微软副驾 + 智能体启动器，三大平台公司在端侧 AI 上的态度第一次同向。

所谓拐点，不只是“条件凑齐了”，是“最有资格判断的人，正在用最大的资源把它推过去”。

拐点的证据密度第一次足够高。

二、五个场景测算与拆解

端侧的五大主战场是手机、电脑、智能眼镜、汽车端侧 AI、人形机器人。五个场景的核心数据一览：

场景	2026 出货量级	单机 NPU 算力	单机端侧 AI 增量价值	2026 端侧 AI 增量市场
智能手机	约 11.2 亿部	35-100 TOPS	20-50 美元	约 140 亿美元
AI PC	约 1.4 亿台	38-80 TOPS	50-150 美元	约 140 亿美元
智能眼镜	超过 1500 万副	5-10 TOPS	300-800 美元（整机均价）	约 75 亿美元
汽车端侧 AI	6000-8000 万套	10-2000 TOPS	50-2000 美元	80-100 亿美元
人形机器人	5-10 万台	275-2070 TFLOPS	5000-15000 美元	约 7.5 亿美元

这里"TOPS"（每秒万亿次运算）是 NPU 峰值算力，不同芯片对应不同精度，用来比较场景间相对量级，不是绝对值。

下面分三个视角讲——单机价值密度、芯片端格局、拐点的强弱环节——而不是按场景平铺。

2.1 单机价值密度的反比规律

把这张表横着读，会看到一条清晰的反比曲线——出货量越大，单机端侧 AI 增量价值越低。

最大基数的智能手机，全球 2026 年出货 11.2 亿部（IDC 2026 年 4 月最新预测，同比 -12.9%），单机端侧 AI 增量价值（NPU 部分 + 内存升级）20-50 美元。最小基数的人形机器人，2026 年出货预计 5-10 万台（Counterpoint、IDC 综合），单机端侧 AI 物料价值 5000-15000 美元——单机价值密度是手机的几百倍。

中间夹着 PC、眼镜、汽车三档。AI PC 单机 50-150 美元（NPU 集成 + 16-32GB 内存升级）、智能眼镜单机均价 300-800 美元（雷朋 Meta 299 美元起、雷朋 Meta Display 799 美元）、L2+/L3 汽车单机 200-2000 美元。

这条反比规律有两层含义。

第一层是商业上的：单机价值越高，量越小、客户越集中、议价权越强、毛利越好。所以人形机器人这条线虽然 2026 年总规模只有 7-8 亿美元（远小于其他四场景），但每多一台就是一个高毛利单元，拿到大客户订单的供应商弹性最大。汽车也是同样的逻辑——单车价值高、客户集中度也高，Mobileye 一家累计装机就 2.3 亿辆。

第二层是周期上的：量越大的场景，被宏观经济和供应链冲击撞得越疼。手机和 PC 这一波最直接被内存涨价撞上。Gartner 2026 年 2 月最新预测：2026 年内存（DRAM）+ 固态硬盘综合价格涨 130%，PC 售价涨 17%、智能手机售价涨 13%。IDC 连续几个月大幅下调预期，从年初的手机 -5%下调到-12.9%。

但内存涨价不只是逆风。它把"云端便宜、端侧贵"的旧账一起算翻了——原本一台手机加 4GB 内存可能多花 20 美元，现在多花 100 美元；如果云端 AI 每次查询又要花 token 费，用户和厂商都会被推向走"内存够大、本地跑模型"的路径。Counterpoint 2026 年 4 月的最新数据是：手机芯片出货 Q1 2026 同比 -8%，全年预期"双位数下滑"——但收入仍是双位数增长。这就是手机行业首次出现的"数量降、价值升"。

放到端侧 AI 这条主线上看，结论很清楚——手机和 PC 这一年量在收缩、但端侧 AI 渗透率还在上升。Counterpoint 数据：2025 年 GenAI 智能手机芯片渗透率 35%（同比 +74%），2027 年累计安装基数预计突破 10 亿台。AI PC 这边，Gartner 2025 年 8 月曾预测 2026 年出货 1.43 亿台、渗透率 55%；但 2026 年 2 月又因内存涨价压力，把 AI PC 达到 50% 渗透率的时点推迟到 2028 年。

按这些数字粗估，2026 年五场景端侧 AI 增量市场加起来约 400-450 亿美元，相当于云端 AI 服务器市场的 1/8 左右（Gartner 给云端 AI 服务器 2026 年 3530 亿美元）。绝对体量比云端小一个数量级，但结构性增长在起步。

2.2 芯片端格局对比

芯片也是这一波端侧 AI 投资的核心问题，五个场景的芯片端格局非常不同——手机和 PC 是结构已定的存量战，眼镜和汽车是格局松动中的进攻战，机器人是从 0 到 1 的卡位战。

手机：苹果 + 高通 + 联发科三国杀

GenAI 智能手机芯片市场份额（Counterpoint 2025 年 9 月）已经收敛到三家——苹果 46%（A19 / A19 Pro，神经网络引擎 + GPU 内置神经加速器分布式架构）、高通 35%（骁龙 8 Elite Gen 5，Hexagon NPU）、联发科 12%（天玑 9500，NPU 990 + 存内计算，约 100 TOPS）。其余 7% 是三星 Exynos + 其他。

这场战役真正的看点不在旗舰段，而在中端段。Counterpoint 数据：300-499 美元价位段 GenAI 手机芯片出货 2025 年同比 +3 倍，占该价位段 38%——其中高通占 57%（用骁龙 700 / 6 系列下探），联发科靠天玑 8000 系列开创该价位段。中端化决定 2026-2027 年渗透曲线，比旗舰段更重要。

PC：高通从 0 进攻、x86 防守

AI PC 处理器有四家主要玩家：

高通骁龙： X2 Elite / X2 Elite Extreme NPU 80 TOPS（CES 2026 推出，3nm 第三代 Oryon CPU、NPU 性能比上代提升 78%）英特尔：Core Ultra Series 3（Panther Lake）NPU 50 TOPS AMD： Ryzen AI 300/400 系列 50-55 TOPS 苹果： M4/M5 38+ TOPS。

高通的位置很特殊——这是它从"手机基带和芯片公司"延伸到 PC 的进攻战。微软 2026 年初数据：用骁龙 X2 Elite 的笔记本 90% 时间已经能在原生 Arm 应用里运行——Arm 在 PC 上的应用兼容性问题，过去十年一直是高通进 PC 的最大障碍，这个数字现在已经被解决了大半。

有一个容易被忽略的组合是英伟达 + 联发科。两家联合设计的 GB10 Grace Blackwell 超级芯片是 DGX Spark 桌面级 AI 工作站的核心——2025 年 10 月 15 日上市，初始售价 3999 美元；2026 年 2 月底因内存涨价升至 4699 美元（+18%）。这是新品类，本地能跑 2000 亿参数模型（FP4 量化）。联发科首次进入"桌面级 AI 工作站"。

整机品牌端，联想 AI PC 全球市占第一（约 31%），其次惠普、戴尔、苹果、华硕、宏碁。

眼镜：高通近乎垄断

智能眼镜芯片目前是高通的天下——骁龙 AR1+ Gen 1 几乎覆盖整个非苹果阵营。2026 年 MWC 上联发科展示了"天玑 AI Omni 体验"挑战这一格局，把天玑 9500 的 NPU 用到智能眼镜上跑全模态大模型。但格局松动需要联发科真正拿到 Meta、Rokid、雷鸟这类客户，目前还没看到。

整机端的事实更清晰。Omdia 2026 年 3 月数据：2025 年全球 AI 眼镜出货 870 万副（同比 +322%），其中 Meta 占 85.2%、出货 740 万副（同比 +281%；依视路-陆逊梯卡 Q4 2025 财报披露的数字是"超 700 万副"）。2026 年预期超过 1500 万副。其他玩家——Rokid（中国领先，全球向上）、小米（中国大陆第二）、XREAL、雷鸟 / 字节跳动 / Even Realities——加起来约 14.8% 份额，争夺剩余空间。

带屏幕的"显示型"AI 眼镜 2025 年从无到有跑出 73 万副。Meta 雷朋 Meta Display 2025 年 9 月以 799 美元上市、2025 年出货 84,000 副且供不应求。这个细分品类是 2027 年苹果智能眼镜潜在进场前的窗口期。

汽车：五家分

汽车端侧 AI 是格局最分散的一个场景，前五家份额加起来约 70%。

玩家	累计装车	2026 年节奏
Mobileye	2.3 亿辆+（10-K 截至 2025.12.27）	Q1 2026 营收 5.58 亿美元（同比 +27%、调整后营业利润 +61%），全年指引上调至 19.75 亿美元，宣布 2.5 亿美元股票回购，2.3 亿辆装机 + 50+ 车企客户
特斯拉（自用）	全球车队 920 万辆，FSD 订阅 128 万	AI5 2026.4.15 完成 tape-out（TSMC + Samsung 双源），量产 mid-2027；FSD 累计行驶超 100 亿英里
华为 ADS	170 万辆+（2026.3 末）	2026 目标累计 300 万辆；问界、智界、阿维塔等 80+ 款车型；ADS 5.0 2026 北京车展发布
地平线	征程系列 2025 年单年出货 401 万颗（+38.8%）、累计超 1000 万颗	2025 全年营收 37.58 亿元（+57.7%），中高端智驾产品出货同比近 5 倍；管理层 2027 年盈亏平衡指引
英伟达 DRIVE	未公开总装车	FY2026 全年汽车业务 23 亿美元（+39%），Q4 单季 6.04 亿；DRIVE Thor SoC 已量产；DRIVE Hyperion 10 接入 Mercedes、Aeva、Hesai、Bosch 等
高通骁龙 Ride	未公开总装车	Q1 FY2026 汽车业务 11 亿美元（+15%），连续第二个季度超 10 亿；FY2026 退出年率超 60 亿；FY2029 指引 80 亿

几个观察。

第一，Mobileye 的规模碾压——2.3 亿辆装机基础是其他所有玩家加起来的若干倍。它不是技术最强，是"客户已经在用、车规已经过"的存量基础。欧洲 GSR 强制的是基础 ADAS 安全功能，不等同于强制 L2+ 或 L3。它会推高 ADAS 标配率，从而利好 Mobileye 这类有大规模装机基础的供应商； L3 订单归属仍取决于 OEM 策略、法规落地、算法开放度和成本。

第二，华为是增长最快的——2025 年 8 月才超过 100 万辆装机，2026 年 3 月已超 170 万辆，2026 年目标 300 万辆——9 个月内 ADS 装机翻番，这种增速在汽车行业极其少见。但华为车 BU 不上市，普通投资者无法直接参与。

第三，特斯拉自研自用不卖给别人。AI5 流片已经比公司原计划晚了将近两年（最初承诺 2025 下半年装车，实际量产推到 mid-2027）。投特斯拉不是投"汽车端侧 AI"纯标的，是投"FSD + Optimus + Robotaxi + 能源"一篮子赌注。

中国第二梯队：黑芝麻智能（2533.HK）2025 全年营收 8.22 亿元（+73.4%），主要在中低端市场，和地平线规模差 4.5 倍。

机器人：英伟达卖水 + 特斯拉自研

人形机器人芯片格局非常清晰——英伟达 Jetson AGX Thor 是事实标准（2070 FP4 TFLOPS、128GB 内存、40-130W 功耗、$3499 起，2025 年 8 月正式发售）。早期采用客户：Agility Robotics、Amazon Robotics、Boston Dynamics、Caterpillar、Figure、Hexagon、Medtronic、Meta；评估中：1X、John Deere、OpenAI、Physical Intelligence。

特斯拉走相反路径——AI5 自研、TSMC + Samsung 双源代工、量产 mid-2027。

中国独角兽——宇树（2025 年出货 5500+ 台，G1 起售 9.9 万人民币）、智元（5168 台）、银河通用、UBTECH（约 600 台）——大多没上市。Counterpoint + Omdia 综合数据：2025 年全球人形机器人出货 1.3-1.8 万台，中国厂商占约 90%。Tesla Optimus、Figure AI、Agility 各约 150-200 台。

2.3 拐点的最弱环节

回到这一篇文章最早的判断——2026 年是端侧 AI 的拐点，但不同场景跨过临界点的"成色"差距很大。

已经在跑、可见早期事实的：

手机这一波内存涨价反向催化端侧 AI——Counterpoint 4 月已确认"出货下滑、收入双位数增长"。

PC 这边微软 Windows 10 EOL（2025 年 10 月 14 日支持终止）+ AI PC 营销周期 + 微软副驾 / 智能体启动器底层框架三件事一起推，即使内存涨价拉低了一点，渗透率仍在 50% 上下。

智能眼镜更明确——Meta-依视路-陆逊梯卡联盟 2025 年从 200 万副跃升到 740 万副；1000 万副年产能目标原定 2026 年底达成、目前预期提前完成；彭博 2025 年 12 月报道 Meta 与依视路-陆逊梯卡讨论把产能扩到 2000 万-3000 万副。

要等到 2027-2028 才出现的：

大模型版 Siri：iOS 26.4（2026 年 4 月发布）没有包含；目前推迟到 iOS 26.5 或 iOS 27（2026 年 6 月开发者大会会有进一步信息）。如果实际表现压不住云端 Gemini / Claude，整个苹果端侧 AI 路线会被重新质疑。

汽车 L2+ → L3 过渡：2026 年欧盟通用安全法规已开始强制 L2+，中国 L3 试点 2025 年开始。但全国大规模 L3 普及还要 2-3 年时间——这件事最直接的受益者是 Mobileye 和地平线。

人形机器人量产爬坡：特斯拉 2025 年完全跳票（承诺 1 万台、实际只出几百台、Musk 在 2026 年 1 月财报会上承认"无一台在做有用的工作"，2026 年 4 月又把 Optimus V3 量产从年初推到夏季）。Fremont 100 万台/年和德州 1000 万台/年只是公司目标——汽车行业产能爬坡历史告诉我们，实际速度通常是计划的 1/3 到 1/2，机器人比汽车复杂，比例只会更低。

单算力来看，2026 年五场景新增端侧算力的相对量级是这样的

手机一年新增约 27.5 ZOPS（每秒 10²¹ 次运算）
PC 约 7 ZOPS
汽车 3.4 ZOPS
机器人 0.075 ZOPS
眼镜 0.12 ZOPS。
手机和 PC 是绝对量的主战场，但单机价值密度低；
汽车是"算力总量 × 单车价值"双高的中位场景；
机器人现在很小，但"如果"特斯拉得州工厂真按公司目标跑出 1000 万台/年，单年增量算力就是 10 ZOPS——约为手机一年总增量的三分之一。

三、价值流向：谁吃肉，谁只是沾边

端侧 AI 这场战役里，谁能赚到钱，跟谁打仗赢了关系不大，跟“在产业链上占什么位置”关系最大。

3.1 产业链的八层结构

把端侧 AI 的产业链拆开，价值会沉淀在八个层次：

芯片设计软件 / 知识产权授权（Cadence、Synopsys、Arm）
NPU/GPU/CPU 知识产权（Arm、自研架构）
芯片设计（苹果、高通、联发科、Mobileye、地平线、英伟达 Jetson）
代工 + 先进封装（台积电独占）
内存（SK 海力士、三星、美光、南亚、华邦）
整机代工 / 模组（歌尔、立讯精密、舜宇、广达、纬创）
整机品牌（苹果、三星、小米、Meta-依视路-陆逊梯卡、各车厂、机器人厂）
操作系统 + 模型 + 应用层（苹果智能 / 安卓 AICore / 微软副驾 + Llama / Qwen / Gemma）

每一层的特性不同：

层次	玩家集中度	毛利率	受益逻辑
芯片设计软件 + 知识产权	极度集中（Cadence/Synopsys/Arm 三家寡头）	70-95%	越多边缘芯片设计越受益，但增速跟下游耦合
NPU/GPU/CPU 知识产权	Arm 主导	Arm 毛利 95%+	端侧每出一颗芯片都在交税
芯片设计	集中（手机/PC 5-6 家、汽车 5 家）	50-70%	主战场，最受关注
代工/封装	完全垄断（台积电）	60%+	端侧 + 数据中心同抢产能
内存	寡头（三星/海力士/美光合计 78%）	15-50%（周期性）	涨价时受益最直接
整机代工/模组	较分散	2-10%	量大但利润薄
整机品牌	各场景 5-10 家头部	5-25%	看品牌溢价能力
操作系统 + 模型	极度集中（苹果/微软/谷歌）	极高（操作系统是平台税）	端侧 AI 推动操作系统价值重估

3.2 价值转移：操作系统级智能体化

这件事是端侧 AI 这一波最容易被忽略的产业重构。当底层硬件 + 端侧小模型足够强大，操作系统通过底层智能体直接拦截用户意图，统筹调度第三方应用获取数据和服务。

例子：

你跟 Siri 说“帮我订下周飞东京的机票”
大模型版 Siri 在本地大模型理解意图、读取你的日历、邮件、习惯偏好
通过苹果应用意图（App Intents）框架调度航空公司应用完成订票
你不需要打开任何应用

这件事如果跑通——传统独立应用开发商面临被“管道化”的风险。价值从“应用内的体验”转移到“操作系统 + 智能体 + 数据入口”。

谁是直接受益者？

苹果：iOS + 苹果智能 + 基础模型框架 + 25 亿活跃设备
微软：Windows 11 + 副驾 + 智能体启动器 + 企业市场
谷歌：安卓 + 端侧 Gemini Nano + DeepMind 蒸馏能力。哈萨比斯在 2026 年 4 月公开把端侧小模型路线列为 DeepMind 的核心优势之一，这是谷歌第一次把端侧 AI 提到战略级别讲
小米：澎湃 OS + MiMo 大模型 + 手机/AIoT/汽车一体生态（中国市场极强）

这一轮端侧 AI 推动的是“操作系统级智能体化”——真正的操作系统厂商（苹果、微软、谷歌、小米、华为）是最大隐性赢家。

3.3 端侧 AI 的分散结构

全球四大 AI 芯片设计商（英伟达、AMD、谷歌、亚马逊）在 2025 年吃掉了全球约 90% 的 CoWoS 先进封装产能 + HBM 内存供应，但他们用掉的台积电先进制程晶圆产能（造芯片本体的环节）只有约 12%。换句话说，AI 芯片的真正瓶颈不在“造芯片”这一步，而在“把芯片和内存堆叠封装在一起”这一步——晶圆产能还有空间，封装和内存却被挤爆了。

但端侧 AI 的结构与瓶颈完全不同：

场景	更主要的瓶颈
手机	先进制程、LPDDR 带宽、内存容量、电池、散热
AI PC	NPU/GPU、统一内存、Windows Arm/x86 软件生态
智能眼镜	功耗、散热、光学模组、重量、佩戴舒适度
汽车	车规认证（汽车安全完整性等级 ASIL）、安全冗余、软件栈、法规责任
机器人	执行器、实时控制、能耗、可靠性、数据闭环

端侧芯片大多用 InFO（成本更可控的封装技术），不是 CoWoS-S/L 这种数据中心专用封装，这样的话产能不是太大问题，而卡点更多在 LPDDR 供应（已经因 HBM 挤出而出现结构性短缺）和功耗散热设计。

所以端侧AI爆发的话，对内存的需求会更直接——这一条建议结合本人HBM研报、高通研报、海力士研报一起看会比较清楚。

3.4 看起来沾边端侧但实际不直接受益的玩家

英特尔：高通在 AI PC 这条线很猛，现在英特尔的Lunar Lake / Panther Lake 在 NPU 性能和能效上落后骁龙 X2 Elite Extreme，英特尔在 Wintel 联盟里的话语权第一次被实质削弱。英特尔在 AI PC 周期里仍会受益（存量换机），但更多是被动跟随，不是边际变化最大的玩家。英特尔的真正赌注是 18A 工艺代工业务。
AMD：AI PC 市场存在感最弱的一个，锐龙 AI 没真正打出存在感。AMD 业务核心还是数据中心 GPU 和 EPYC 服务器 CPU。AI PC 对 AMD 同样是被动跟随。
大部分整机厂：传音、安克、部分安卓 OEM、普通白牌硬件厂——它们卖得越来越多，但端侧 AI 的差异化主要在芯片层，整机厂拿到的是“跟着芯片厂跑”的红利，不是自己创造的红利。
互联网公司（Meta/谷歌）的整体收入：Meta 智能眼镜业务一年几十亿美金收入，在 1700 亿总收入里几乎看不见。谷歌同样——端侧 Gemini Nano 影响安卓生态，但对谷歌财报短期影响小。除非业务做到“百亿级”否则不会反映到估值。

关键区分：AI PC 对英特尔和 AMD 是防守战，对高通是进攻战。

3.5 苹果这种“云 + 端”一体化玩家的特殊地位

最后留个伏笔——苹果通过私有云端计算（PCC）提出了“云端推理也跑在苹果自研芯片上”的设想。如果真的把端侧的隐私架构延伸到云端，会创造一个新的玩家品类——“软件定义的端云协同 AI”。

这件事还没成型。但苹果通过基础模型框架打开开发者生态、再通过 PCC 给云端任务一个“苹果盒子”——这种“端 + 云”的全栈集成，在五年视角里是端侧 AI 最大的认知差。

四、端侧 AI 价值落在哪？

把端侧 AI 的产业链拆开，价值会沉淀在四个位置——设备入口、芯片设计、基础设施、关键零部件。每一层的护城河不同、弹性不同、风险也不同。

4.1 设备入口：拥有用户的人

端侧 AI 真正的稀缺资源不是 NPU、不是模型，是装机基础。

云端 AI 的护城河是数据中心 + 模型权重，谁都可以建。端侧 AI 的护城河完全不同——它需要 装机数量 + 操作系统 + 自研模型 三件事同时存在，缺一不可。装机决定能触达多少用户，操作系统决定能不能从底层调用资源，自研模型决定数据闭环握不握在自己手里。三件事任何一件外包，护城河就不成立。

这就是为什么真正的设备入口玩家寥寥——苹果（iOS + 25 亿活跃设备 + 苹果智能 + 基础模型框架）、小米（澎湃 OS + 10.79 亿 AIoT + 自研 MiMo 大模型 + 汽车）、华为（鸿蒙 + 自研昇腾 + 自研盘古）、Meta + 依视路-陆逊梯卡联盟（智能眼镜的新品类入口，全球市占 85.2%）。其他手机厂、其他眼镜厂都只能算"使用入口"的人，不算"拥有入口"的人。

市场对设备入口层最大的认知偏差，是用消费电子的估值给它定价。但端侧 AI 时代的设备入口公司，本质上是 “中长期的 AI 平台公司 × 短期的硬件周期公司” 的混合体——估值要看长期那一半。

4.2 芯片设计：场景跨得越宽越值钱

这一层是市场最关注、估值波动最大的位置。判断这一层有一条核心标准——场景宽度。

一家芯片公司只跑一个场景（比如只做手机 SoC），估值跟随该场景周期上下波动；如果能把同一套低功耗 AI 芯片能力同时迁移到手机、PC、眼镜、汽车、机器人多个终端形态，估值就能跨越单一周期。

高通是这条逻辑最典型的标的——五个场景全覆盖的唯一玩家。它真正的重估逻辑不是某颗骁龙芯片多了多少 TOPS，而是它能不能把手机时代积累的低功耗芯片能力迁移到所有新终端。一旦市场把它从"手机基带 + 芯片公司"重新定价为"端侧 AI 全场景平台公司"，估值结构会被重写。

联发科是被低估的版本——出货量大、和英伟达联合设计 GB10 桌面级 AI 工作站打开了新品类、智能眼镜赛道也在布局。

它的故事和高通像，慢了几年。

垂直场景里——Mobileye / 地平线在汽车 ADAS、英伟达 Jetson 在机器人——这些公司只赌一个场景。弹性大、风险也集中。垂直场景标的的核心问题不是"它技术多强"，是"那一个场景什么时候真正放量"。

4.3 基础设施：每颗芯片都要交税

这一层最不"性感"、但最不可绕过——端侧每多一颗芯片、每多一 GB 内存，钱都会流过这里。

Arm 是 CPU 指令集的隐形税基。云端、端侧、车规、机器人——只要用 CPU，几乎都基于 Arm。但要给一个限定：Arm 一统的是 CPU 指令集，不是 NPU。AI 推理的真正负载发生在 NPU 上，每家 NPU 都是自研的、互不兼容。Arm 的护城河"广而不深"。

台积电是物理底座。不管谁设计什么端侧芯片，最终都要到这里拿产能。先进制程 + 先进封装的双重瓶颈，让它在端侧 AI 周期里没有真正的替代者。

内存（SK 海力士、三星、美光）在这一波端侧 AI 里是逆向受益——HBM 挤出 LPDDR 产能 + 端侧 AI 推动设备内存增量需求 + AI 数据中心和消费设备共抢同一组产线，三件事一起把内存价格推到结构性高位。手机 PC 厂商被涨价压住毛利，内存厂吃到完整溢价。海力士的细节在我之前的海力士单篇研报里。

这一层的价值在持续性。

4.4 关键零部件：等下游哪个端先爆发

最后这一层是中国制造业的强项——光学、声学、精密代工、组装。它的特点是"被动受益"——自己不创造新故事，但下游某个端真的爆发时，弹性最大。

最值得看的是智能眼镜这条线——歌尔股份和舜宇光学。Meta 智能眼镜从 2025 年的 740 万副跃升到 2026 年预期 1500 万副，这两家最直接受益。中国 AR 眼镜行业波导 2026 年需求 160 万副里，能跑百万级产能的国内只有它们两家。歌尔 2025 年报披露"AI 智能眼镜呈现爆发性增长"，净利率从 2023 年最低点的 1.1% 恢复到 4.1%，是产品结构升级的直接信号。

汽车端的零部件——舜宇车载镜头 + 立讯精密车规级模组——同样在等 L3 这个拐点。

人形机器人那条线，目前国内执行器（电机 + 减速器 + 丝杠，占人形机器人物料 60%+）有大量公司在跑，但还没出现明显的龙头——这一层还在格局未定的早期。

这一层完全看下游哪个端先放量。智能眼镜 vs 汽车 L3 vs 人形机器人，跑出哪个，对应那条供应链的零部件公司就跟着起。

把这四层放在一起看：设备入口和基础设施持续性最强、波动小；芯片设计弹性最大、波动也最大；关键零部件完全看下游某个端何时放量。

每一层都有自己的赔率和确定性。这场端侧 AI 的故事不是赌某一家公司、某一颗芯片，而是判断哪一层、哪一个阶段最值得跟踪。

五、风险

5.1 内存涨价反向施压：是推进器也是风险

第一节我讲内存涨价是端侧 AI 的推进器——但它同样是风险。主要是整机厂利润压缩 + 中端机型 AI 化进度放慢

镜像那一面是存储厂商的长周期——SK 海力士、美光这些反而吃到完整溢价，HBM 和 LPDDR 双向受益。具体可以参考本人有关 HBM 和海力士的单篇研报。

5.2 云端 AI 价格下降反向压缩端侧空间

第一节讲了“云端推理边际成本”是端侧 AI 的根本驱动力。但这个论证有个隐含假设——云端推理价格不能下降太快，否则就没有很强的动力去到端侧。

2024 → 2026 年云端 AI 有效成本下降速度惊人，主要驱动力包括：

模型本身的代际降价（OpenAI、Anthropic、谷歌各代模型）
提示词缓存（prompt caching，把重复输入的部分缓存起来重复利用）等机制让输入 token 实际成本最高下降 90%
蒸馏小模型 + 模型路由（按任务难度分配到不同模型）
中国模型（DeepSeek、通义千问、MiMo 等）把价格再压低 5-10 倍

如果云端变便宜变快，端侧 AI 的“价值差”会被压缩到主要剩“隐私”、“低延迟”、“离线可用”和“操作系统常驻”几个维度——而隐私这件事大部分用户实际上不在意。

但反过来说，如果端侧推理的硬件进步速度超过云端价格下降速度，这种压缩会反向（端侧反而吃掉云端的部分应用）。

5.3 端侧大模型的“好用”标准还没建立

云端大模型有公开的标准化测试（MMLU 综合知识、HumanEval 代码、SWE-Bench Pro 工程任务等），端侧大模型的“在手机上好不好用”目前没有标准化评估。

如果大模型版 Siri 最终发布（iOS 26.5 或 iOS 27）后用户反馈“不如 ChatGPT”，这会立刻引发苹果端侧 AI 路线的根本质疑——也会冲击整个端侧 AI 板块的估值预期。

5.4 智能眼镜的“窗口期”可能比想象的短

Meta-依视路-陆逊梯卡联盟在 2025-2026 年的领先优势，前提是苹果智能眼镜还没发布。苹果在 2024 年开始内部调整 Vision Pro 团队，把智能眼镜级产品的优先级抬高。

如果苹果的智能眼镜在 2027-2028 年发布且产品力压过 Meta，这条线的故事会重写。

5.5 机器人量产的所有时间表都偏乐观——2025 年已被证明

特斯拉 2025 年初承诺 Optimus 出货 1 万台、实际只出几百台试产、马斯克在 2026.1 财报会议上承认“无一台在做有用的工作”、2026.4 又把 V3 量产从年初推到夏季——这是一个非常重要的提醒。

特斯拉 100 万台/年产线（2026 年底 Fremont 工厂启动）、得州 1000 万台/年二代线（2027）、Figure 的宝马工厂部署、中国具身智能公司的所有时间表——基本都是“最乐观”版本。汽车行业的产能爬坡历史告诉我们，实际的爬坡速度通常是计划的 1/3 到 1/2。机器人比汽车复杂，这个比例只会更低。

如果 2026-2027 年人形机器人实际量产远低于市场预期，机器人侧的端侧 AI 故事会被重新定价。

结语

倒牛奶的女仆，已经站了三百多年。

端侧 AI 的转折才刚刚开始，我们可以多一点耐心。

如果觉得有帮助请点赞转发、点击“在看”等，您的支持是我持续分享的最大动力，谢谢！建议将本号“加为星标”。

关注我，在别人看热闹的地方，看到机会。

免责声明：本文内容基于公开资料整理，仅供学习研究参考，不构成任何投资建议。投资有风险，决策需谨慎。

ZBlogIt

Nice to meet you, too!