×

云启研报 | 工业场景下的具身智能:能力与应用深度分析

wang wang 发表于2026-02-10 17:20:57 浏览1 评论0

抢沙发发表评论

云启研报 | 工业场景下的具身智能:能力与应用深度分析

快过年了,但不过年的 AI,从没打算慢下来

从 OpenClaw 掀起的新一轮 A2A 讨论,到互联网大厂竞相把 AI 卷进红包与互动体验;从春晚舞台持续上升的“机器人密度”,到行业对 DeepSeek 下一步动作的高度关注——可以确定的是,即将到来的马年必将是一个 AI 马力开足的年份

在这样的节奏下,云启也马力开足,思考力、行动力通通拉满。春节前一周,我们依然保持高密度运转。特此呈现「马力全开 · 云启年货集」,把持续进行的行业研究、创业者对话、热点跟踪和年度业务盘点,作为特殊的礼物与大家分享。

第一份“年货”,与提前锁定春晚 C 位的科技主角「具身智能」有关。

过去十余年,工业机器人构成了现代制造体系中高度稳定的一层基础设计。围绕确定性工序、结构化环境和高重复任务形成的控制与验证体系,使机器人在汽车制造、3C 电子、仓储物流等场景中实现了规模化的应用。

近几年,多模态模型、VLA(Vision-Language-Action)以及 Agent 架构的快速发展,使机器人技术再次进入加速演进阶段。“具身智能”由此成为产业与资本高度关注的新变量,并被寄予进入更复杂工业与物流场景的期待。

但从投资与工程落地的视角出发,一个更关键的问题逐渐浮现:具身智能在真实工业场景中,究竟解决了哪些新的问题?这些能力是否能够在节拍、精度与可靠性约束下形成可持续的工程解?

围绕上述问题,云启投资团队在 2026 年首场内部分享中做了系统分析。本期「云启研报」和你部分精华内容。

本文将聚焦,

在制造业与物流等真实场景中:

1

具身智能相对于传统工业机器人,能力增量体现在哪里?

2

其工程与数据约束决定了哪些方向值得当下推进?

3

不同细分场景与当前具身智能技术发展阶段的适配度如何?

传统工业机器人 vs 具身智能:

两套不同工程假设下的方法论差异

在工业与物流场景中,传统工业机器人与具身智能并非同一路线的连续升级,而是建立在不同工程假设之上的两套方法体系。二者在任务建模、动作生成和泛化方式上存在结构性差异。

传统工业机器人方法论的核心是固定轨迹的插补、优化控制。以几何/运动学模型驱动的分层管线为核心,接口契约清晰、可审计可验证,优势集中在高精度、稳定节拍与安全认证;但面对遮挡、混料、频繁换型等长尾变化时,标定/工装/规划与调试成本高。

具身端到端 VLA 的方法论核心则以多模态数据进行表征学习多模态观测与数据闭环训练驱动的策略直接生成动作,优势在半结构化场景的泛化与快速迭代;但可验证性和一致性弱,难以稳定保证毫米级精度与高节拍,且存在分布漂移/尾部风险。

技术判断:工业场景中的 VLA

能力在提升,但边界清晰

从工业视角看,具身智能并非对既有工业机器人体系的简单替代,而更像一次能力结构的扩展尝试这也决定了它在工业与物流中的落地方式,天然受到节拍、精度和可靠性的共同约束。

1. VLA 技术带来的增量

机器人技术的进步,改变了可被自动化的场景范围。从传统工业机器人,到引入深度学习,再到具身智能范式的出现,增量主要体现在以下几方面:

第一,自动化开始覆盖非结构化场景。传统工业机器人依赖高度结构化环境运行,而具身技术在感知与决策能力上的提升,使机器人能够在存在位置浮动、遮挡、混料和随机堆叠的场景中执行任务。

第二,操作对象从刚性零件扩展到柔性与多形态物体。具身智能重点补齐了对线缆、布料、柔性包装、食品及异形物体的处理能力。这类对象难以通过固定轨迹和参数建模完成稳定操作,多模态感知与策略学习显著扩大了可自动化对象的范围。

第三,工程配置门槛有所下降。随着感知、理解与动作生成的深度耦合,机器人对工装、夹具和高精度标定的依赖降低。在 SKU 变化频繁、工况调整快的场景中,部分原本工程成本过高的自动化方案开始具备可行性。

但需要明确的是,这种增量存在清晰边界。当前具身技术在精度、节拍和长期稳定性方面仍明显弱于传统工业机器人,难以替代高速、高精度的核心制造工序。

在大量制造场景中,传统工业机器人可以实现 80–150 次/分钟的节拍,而当前 VLA 体系下的端到端执行速度,普遍仍停留在 10–15 次/分钟量级。在精度层面,半导体等行业对亚毫米乃至微米级精度的要求,也超出当前具身模型的稳定输出能力。

为什么 General Manipulation 

不适合工业场景

在具身智能讨论中,General Manipulation 往往被视为终极目标,但从工业与物流场景的实际需求出发,我们认为通用操作模型并不天然符合工业场景的价值取向

首先,工业场景本身是有限且有边界的。任务目标清晰、作业对象和交互环境相对稳定,在这种前提下,大规模泛化能力并非刚需。相反,通用模型引入的高复杂度、多模态输入和推理成本,可能降低系统稳定性并增加验证难度。对工业系统而言,可控性和确定性优先级高于通用性

其次,在实时性与可靠性要求极高的工业环境中,经过强化学习/后训练的垂域模型往往更具优势。这类模型将计算资源集中于关键技能,易于满足毫秒级响应和长期稳定运行需求,同时具备更可控的成本结构。分层架构与技能原子化,仍然是工业系统中的有效工程解。

第三,从落地路径看,VLA 在工业场景中更合理的形态并非单一的大一统模型,而是多个面向具体场景的小模型协同。不同工业场景之间差异显著,数据难以共享,强行统一训练会显著抬高数据与验证成本,也不利于快速部署。

更优的结构:Agent 架构下的

多模态感知+垂域操作模型

在现有实践中,更可行的技术形态逐渐显现出来:以 Agent 架构承载复杂任务理解与调度,在执行层选择采用针对具体操作的垂域模型——可以是经典机器人运控算法、也可以是经过后训练/强化学习的较小参数的VLA算法,取决于所需技能的复杂程度。

这种拆分结构的优势在于:满足工业对实时性与稳定性的要求;控制成本与验证复杂度;允许能力在具体工序中逐步释放;从工程角度看,这是一种更加“工业友好”的智能引入方式。

数据与训练:

具身技术工业落地的关键约束

在工业与物流场景中,具身智能能否真正落地,核心并不只取决于模型能力,而更深层地受制于数据类型、采集方式与训练路径从现阶段来看,数据与训练策略,正在成为具身技术工业化过程中最关键的约束变量。

工业数据具有明确分层

而非单一最优解

与通用模型训练不同,工业场景中的数据并不追求“越通用越好”,而呈现出高度分层的结构特征:

  • 真机遥操作数据

    由人类直接控制真实机器人获得,精度高、物理一致性强,是当前工业场景中认可度最高的数据形式,适用于强接触、高精度要求的任务。但其采集成本高、规模扩展受限。

  • UMI / 多模态人类示范数据

    在真实环境中采集人类操作,再映射至机器人执行空间,在数据质量与规模之间取得一定平衡,具备作为中间形态的潜力,但仍存在工程适配与泛化挑战。

  • 作捕捉数据

    可高效生成高自由度动作序列,用于补充动作分布和引导学习,但与真实机器人执行之间仍需额外建模与对齐。

  • 仿真数据

    具备规模优势,是预训练和强化学习的重要数据来源,但单独使用难以覆盖真实物理世界中的复杂不确定性。

  • 互联网视频数据

    互联网上积累的大量视频,背后潜在反映了物理世界的规律,存量巨大,但数据精度差。如何能够基于模型充分挖掘、压缩这些存量视频数据背后的物理智能,是学术前沿仍在探索的重要方向。

工业具身训练并不存在“万能数据源”,不同阶段与不同任务,对应不同的数据组合方式

真实数据仍决定工业性能上限

尽管仿真在具身研究中发挥着重要作用,但在工业环境中,真实数据仍然是性能与稳定性的基础

当前工业仿真已在光学和几何层面取得显著进展,但在以下关键物理维度仍存在明显差距:

  • 接触力与摩擦力的不确定性

  • 柔性物体的连续形变

  • 多物体交互带来的组合复杂性

  • 机器人本体动力学差异

这意味着,仿真更适合作为训练和验证的放大工具,而非真实数据的替代路径。

需要重视的训练范式:

Real2Sim2Real

从工业落地角度看,具身训练还面临一系列现实约束,如真机遥操作采集效率低、成本高;不同产线和设备之间的数据难以直接复用;工厂环境对试错和失败样本的容忍度有限等。

在工业实践中,更可行的路径正在逐步清晰,即 Real2Sim2Real的闭环流程:以少量真实场景和真实操作数据作为起点;通过 3D 重建与场景抽象,将真实环境映射到仿真系统、在仿真中进行模仿学习与强化学习扩展;提高策略覆盖度与鲁棒性回到真实环境进行验证与修正,补充关键失败样本

这一范式的核心价值在于:用有限的高质量真实数据,撬动更大规模的训练空间,同时控制部署成本与风险。

制造业场景下的具身应用落地分析

从制造业的现实需求出发,具身技术的应用在不同场景中呈现出显著分化:部分场景已具备直接落地条件,部分场景处于过渡优化阶段。下文分析部分场景。

巡检:

具身技术可直接应用的优先场景

巡检是当前具身技术在制造业中最具现实可行性的切入点之一

其共性特征在于:

  • 任务目标清晰,但操作细节高度非结构化

  • 场景变化大,传统规则算法覆盖困难

  • 对连续高精度操作要求不高,但强调泛化与安全性

在多个典型场景中,具身方案具备明显优势:

  • 变电站运维巡检

    涉及设备状态检查、简单操作和开关复位,环境中存在碎石路、电缆沟、台阶等复杂地形,同时伴随高压与电磁风险,适合通过具身系统降低人工暴露。

  • 石化与化工装置区巡检

    管廊密集、通道狭窄、存在有毒有害气体泄漏与高温高压环境,巡检任务强调连续移动与多点检测,对 Locomotion 和场景泛化能力要求高。

  • 光伏巡检

    场景尺度大、地形起伏明显,且常处于高温、沙尘等环境条件下,具身系统可替代人工完成巡检与简单清理操作。

整体来看,巡检场景的价值在于:操作难度可控,但场景变化复杂,非常适合具身系统能力发挥。

物料搬运:

短期内最具规模化潜力的方向

物料搬运是制造业中体量最大、也是具身短期最值得期待的应用方向之一。

具身技术在以下需求中具备明显改进空间:

  • 散乱堆叠抓取: 面向非规则堆放物料,传统规划算法处理困难,对感知与泛化能力要求高。

  • 柔性搬运: 面对布料、薄膜、包装材料等柔性物体,规则方法依赖吸盘,适应性有限。

  • 多 SKU 快速切换产线频繁变更物料规格,要求系统快速适配而非重构规则。

在典型行业中的表现差异也较为明显:

  • 汽车制造更偏向场内物流与半结构化搬运

  • 3C 电子强调 SKU 多变与节拍敏感

  • 物流与电商场景则对非标、异形件处理需求更强

因此,物料搬运成为具身替代与优化空间同时存在的关键场景

精准装配:

对模型能力与系统成熟度要求最高

相比巡检和搬运,精准装配对具身系统提出最高门槛

当前主要挑战集中在:

  • 柔性形变物体装配 

    如线束、泡棉、织物等,物体形态随受力实时变化,对感知与控制要求极高。

  • 高精度隐蔽装配

    视觉遮挡、微小容差、复杂插拔路径,使得单纯依赖视觉难以满足稳定性要求。

  • 非标准尾工序自动化

    传统方案定制成本高,具身方案尚需进一步提升对工艺理解与异常处理能力。

从当前阶段来看,精准装配能力的提升有赖于 VLA Pretrain 的持续进步,短期内更适合从半自动、辅助执行等形式逐步渗透。

制造业场景总结:

能力边界决定落地节奏

从整体制造业应用结构来看,当前具身技术更适合优先进入以下方向:

  • 场景复杂但精度要求、时序性要求相对可控

  • 带有柔性操作的场景

  • 复杂地理环境、复杂作业规程下的操作

结构性推进中的工业具身

综合技术路径、数据约束与制造业真实需求来看,具身智能在工业领域的落地,更像是一场结构性演进,而非单点技术突破带来的跃迁。

一方面,VLA、强化学习与多模态感知正在显著拓展机器人在非结构化场景中的能力边界,使巡检、搬运等环节出现了清晰可行的落地窗口;另一方面,工业环境对稳定性、节拍、可靠性的要求,也意味着具身技术短期内难以“通用模型”的形态快速全面替代现有系统。

从实践路径上看,以 Agent 架构组织系统复杂性、以垂域操作模型承载执行能力,并结合 Real2Sim2Real 的数据闭环,正在成为更符合工业现实的选择。这一路径并不追求一次性泛化,而是在可控成本与风险下,通过场景化推进逐步扩展能力范围。

因此,我们更倾向于将工业具身理解为一个长期演化的工程问题:  

它不会颠覆所有既有生产方式,但有望在特定场景中持续释放增量价值,并与传统工业机器人、自动化系统形成互补。