具身研报04|具身智能的“看-想-动”怎么实现?硬件分析来拆解

2026年4月19日，北京举行了亦庄半程马拉松暨人形机器人半程马拉松开跑。赛场上，机器人跑步、冲线、比拼速度，成为外界关注具身智能的一次高光时刻。

可比起场上的奔跑，我们更想把目光投向场下那些看似不起眼的动作：几天后，在北京另一场机器人演示中，人形机器人开始俯身捡起垃圾、整理花束。正是在这些不那么“热闹”的瞬间，具身智能真正的产业方向变得更清晰了。因为当行业还在为机器人跑得多快、跳得多高喝彩时，另一批公司已经把重点放在了更朴素的问题上：它能不能把地上的垃圾捡起来，能不能在杂乱环境里把一束花整理好。看似简单的动作，背后对应的，却是具身智能从能力展示走向场景落地的转折。

（机器人整理花束、倒垃圾

图源：路透社）

作为北京大学学生人工智能创新会，我们持续跟踪具身智能前沿，围绕其核心技术体系与产业落地逻辑展开系统研究。具身智能系列报告将从 VLA、世界模型、数据、机器人硬件四个板块，对技术内核、关键瓶颈和产业前景进行拆解。

本次发布的研报聚焦硬件板块。具身智能硬件的核心组成、技术路线、行业现状及未来趋势，覆盖感知、决策、执行、本体、能源五大核心系统，呈现硬件领域的技术突破与产业痛点。

本文为研报预览，完整深度分析、技术细节与行业研判，请在公众号后台回复【具身智能研报】。

一、怎么看：感知系统

（一）仿生脸

你有没有见过表情僵硬的机器人？那种虽然看着像人类，却依然让人心里发毛的感觉，就是恐怖谷效应。而仿生脸的首要任务，就是填平这座山谷。因为只有当表情神态足够自然，人类才愿意开启对话。

（卓益得推出的Moya机器人）

一套完整的仿生脸，背后藏着五个关键环节，其中后面三个环节是硬件所关注的板块。

下方是首形科技2024年发布的一款表情机器人Emo的技术展示，其面部硬件系统展示了高度集成的设计思路。

（论文中所展示的Emo面部硬件系统）

目前全球的技术路线，大致有四类。每一种路线，都是在逼真度、成本和耐用性之间做取舍。首先是超写实混合驱动，代表是首形科技的精灵·璇。其次是高密模块组件，典型是英国的Ameca机器人。它有27个自由度，表情会和脖子、锁骨的姿态协同运动。以及材料触感超写实路线，如大连蒂艾斯。

（首形科技的“精灵·璇“机器人）

（二）力传感器

光靠眼睛，看不准——这是所有机器人工程师的共识。当手指碰到零件，脚底踩到石子，必须有力传感器在接触瞬间接管控制。

特斯拉Optimus机器人是个很好的范本。它的肩、肘、腰用扭矩传感器，腿部用一维力传感器。而关键的手腕和脚踝，全部用了六维力传感器。

（特斯拉Optimus机器人BOM拆解）

什么是六维力？通俗来说，它同时测量三个方向的推力和三个方向的旋转力矩。手腕装上它，拧螺丝就不容易滑丝。脚踝有了它，站在斜坡上也能自动调整重心。

从硬件上看，六维力传感器由三部分组成：弹性体是受力的骨架，常见十字梁结构；应变片把微米级的形变转成电信号；信号处理电路则负责放大、滤波和温度补偿。评价它有个核心指标叫串扰。也就是各方向信号互不干扰的程度，优秀产品能做到1%以内。

（应变式力传感器基本原理）

目前的技术路线也很多元：

1）电阻应变式最成熟，美国ATI的硅应变片信号强度是传统方案的75倍。国内蓝点触控也已经批量供货。2）MEMS应变计用半导体工艺量产，坤维科技解决了传统胶水老化的痛点，适合大规模制造。3）电容式超薄又抗撞，斯坦福的CoinFT传感器成本极低，适合做指尖感知。4）压电式刚性极高，能捕捉高频振动，但不适合测静态力，电路也复杂。

（六维力传感器技术路线原理、优缺点介绍）

二、怎么想：决策系统

在具身智能“看—想—动”的链路中，决策系统扮演着接收感知信号、进行逻辑推理并下发控制指令的“智能中枢”角色。不同于只需要执行预设程序的传统工业机器人，具身智能需要在开放、非结构化且充满未知干扰的物理环境中进行自主决策与操作，这对其算力支撑和控制架构提出了极大的要求。

（人形机器人组成示意图）

从结构上看，人形机器人由大脑、小脑、肢体三部分组成。“大脑”负责慢思考（高级认知），解决“干什么”的问题。它需要理解人类语言、看懂周围环境，并把任务拆解。这需要极高的人工智能算力，但对反应速度的要求相对宽容。“小脑”负责快反射（运动控制），解决“怎么干”的问题。它不管大局，只负责在几毫秒内调节全身几十个电机的转动，保证机器人不摔倒、走得稳。这不需要极高的AI算力，但对“不卡顿”的实时性要求极高。因此，在当前的物理硬件形态上，人形机器人普遍采用了“异构芯片组合，即用算力极强的SoC芯片来做“大脑”，用极其稳定且低延迟的MCU（微控制器）来做“小脑”。展望未来，行业在“软件”与“硬件”两个方向的发展正逐渐清晰，但仍处于不断探索与优化的阶段。

三、怎么动：执行系统

（一）电机与减速器

在具身智能机器人里，电机和减速器是决定“怎么动”的核心部件。简单来说，电机负责把电能转化成机械运动，相当于机器人的“肌肉”；减速器则负责把电机原本高速、低扭矩的输出，变成更适合机器人关节使用的低速、高扭矩动作，相当于“力量转换器”。二者长期以来构成了机器人执行系统的主流方案。

目前行业最常见的路径，是“高速电机+精密减速器”的组合。它的优势在于技术成熟、成本相对可控，也更容易兼顾力量、精度和稳定性，因此被广泛应用在人形机器人和工业机器人中。尤其是在大多数关节场景下，机器人需要的不是单纯转得快，而是要稳、准、有力，这正是减速器存在的意义。

但另一条值得关注的路线，是直驱电机。所谓“直驱”，就是电机本身直接输出足够大的扭矩，从而省去减速器这一中间环节。之所以能去掉减速器，是因为这类电机通过更高的扭矩密度设计，直接满足关节驱动需求。它的好处是结构更简单、传动损耗更低、响应速度更快，但难点在于成本更高、体积和控制要求也更苛刻。

往后看，具身智能的发展方向，正在从“能动起来”走向“动得更自然、更高效、更低成本”。这也意味着，传统电机+减速器方案仍会是主流，但直驱、一体化关节模组以及更高国产化率，都会成为下一阶段的重要趋势。

（二）丝杠

在执行系统中，丝杠作为将旋转动力转化为直线运动的关键部件，是价值量最高、制造壁垒最深的环节之一。当前全球高端丝杠市场高度垄断，外资品牌占据约85%的国内份额。面对人形机器人百万台量级的市场与迫切的降本诉求，传统的纯磨削工艺面临效率与成本瓶颈，中国本土企业正凭借“复合加工工艺”与“底层设备国产化”加速破局。

（丝杠基本功能原理）

（三）灵巧手

人形机器人能否进入为人类设计的环境、使用为人类设计的工具，相当程度上取决于手。2024年底以来，特斯拉 Optimus 将手部自由度从11升至22，国内宇树、智元等也相继发布自研灵巧手，行业进入密集迭代期。灵巧手设计的核心矛盾是精度、成本与轻量灵活性之间的三元权衡。精度越高，独立驱动单元和精密零部件越多，成本随之攀升；追求轻量则限制体积重量，与高精度传动所需的复杂机构相悖；降低成本则意味着减少驱动器或放宽传动精度。三者难以同时充分满足。

技术路线的演化正是在这一权衡空间内的逐步收敛。驱动方案上，"主动+被动"混合配置取代了纯全驱动，对拇指等关键手指保留独立驱动；传动方案上，"微型丝杠+腱绳复合"成为共识，前者提供刚性定位精度，后者承担末端柔顺；感知方案上，腕部六维力矩传感器搭配指尖触觉阵列已成标配。这些选择更像是当前材料、电机和工艺条件下的工程实用主义，而不是某一项参数上的最优解。

四、谁来动：本体部分

感知负责看，决策负责想，而本体负责动。在产业链中游，本体制造把电机、减速器、传感器等零部件拼成一整台能站能走的物理系统，它直接决定了运动性能、可靠性和量产成本。

（具身智能产业链）

（一）人形机器人

人形机器人被公认为通用场景的理想形态，因为这个世界是为人类建造的。只有人形，才能像人一样用工具、上楼梯、进工厂、做家务。

当前，人形机器人整体处于L3向L4过渡的阶段。L3能感知环境、在特定场景自主行动，而L4需要理解任务和语义，在非结构环境中自己做决定。

那么本体厂商到底在硬件方面做什么？主要是三件事：机械结构层的关节布局与自由度分配；驱动传动层的电机、减速器选型与集成；底层控制层的关节级算法与整机运动控制。

什么样的本体厂商能活下来？从需求侧看，产品性能要过硬，场景落地要真实，价格要可控。从供给侧看，硬件架构必须收敛，关键执行器最好自研，供应链成熟度直接决定量产节奏。

目前全球的本体玩家大致分三类。

第一类是创新破局者，以宇树科技、智元机器人、星动纪元为代表，他们技术突破快、资本驱动强。

第二类是技术积淀派，包括优必选、波士顿动力、埃斯顿这些老牌选手。

第三类是场景渗透者，主要是特斯拉和小鹏这样的车企。汽车与人形机器人的供应链高度协同，电机、减速器、传感器可以直接复用。

（二）非人形机器人

在具身智能产业链里，非人形机器人本体更像是真正承接商业化落地的一环。相比仍在追求“通用能力”的人形机器人，非人形机器人往往面向更明确的任务场景，比如巡检、水下作业、测绘和应急，因此更容易率先跑通商业模式。它的核心竞争力也不只是“硬件做得强”，而是能不能把机械结构、感知系统、控制算法和场景需求真正整合起来，变成一套稳定、可交付、可复制的解决方案。

从细分方向看，四足机器人更强调复杂地形下的移动与巡检能力，水下机器人比拼的是高可靠性和工程交付，飞行机器人则正在从传统无人机走向更自主的“飞行智能体”。这些赛道虽然形态不同，但底层逻辑一致：谁能更理解场景、谁能更稳定完成任务、谁就更有机会率先建立行业壁垒。

往后看，非人形机器人不会只是“替人干活的机器”，而会逐步成为面向垂直行业的智能作业平台。随着AI能力持续下沉，行业竞争也将从单机性能，进一步转向系统集成、场景工程化和规模化交付能力。

展望未来，一个清晰的信号已经出现：本体不再是最大的瓶颈。硬件架构逐步收敛，供应链日趋成熟，头部企业已实现千台级交付。行业竞争的重心正从造身体转向练大脑。

正如Figure AI的CEO所说，核心在于率先实现通用化，这是技术研发问题，不是单纯的制造问题。单纯靠规模效应降本空间有限，BOM各环节的结构成本压缩很难。

未来的竞赛，将围绕机器人大脑的训练、场景泛化能力的提升和商业化闭环的构建展开。身体的上半场快结束了，大脑的下半场才刚刚开始。

五、如何驱动：能源系统

当前主流人形机器人的续航大约在两到四小时之间，而工业场景普遍要求连续工作接近二十小时。这个缺口，很大程度上来源于电池问题。

人形机器人对电池的要求比较特殊。它需要同时满足高能量密度、高倍率放电和高安全性。机身空间有限，关节电机的瞬时功率需求极高，又因为工作于近人环境而对热失控零容忍。这几个目标叠加在一起，使得人形机器人的电池需求有别于新能源汽车等场景。

目前机器人普遍搭载高镍三元液态电池，成熟、可量产，是现阶段跑得起来的方案。但受制于能量密度的物理上限，这条路线的改进空间有限。与之相对应，固态电池被更多人视为更长期的方向。固态电解质不可燃，安全性从材料层面就有了保障，理论能量密度也显著高于液态三元体系。已有搭载固态电池的机器人产品验证了续航的显著提升，方向上的共识正在形成。

当然，落地也存在困难。机器人的构型和功耗需求仍在快速迭代，电池的定制化开发面临较大的不确定性；成本也明显高于液态路线。产业化初期，续航并不是机器人企业最优先解决的问题，这在一定程度上减缓了固态技术的推进节奏。

从企业布局来看，头部电池厂已在固态路线上有实质性进展，部分半固态产品已实现量产装车。人形机器人也是业界公认的、固态电池最早可能实现高价值商业化的应用领域之一。

北大学生人工智能创新会，简称PKU SAIIC，是北大校内唯一的人工智能社团，由校团委，计算机学院团委、人工智能创新中心共同领导，施柏鑫老师指导。

研报作者：沈恩昊、吉宇涵、顾苏灵、陈顺汶

系列研报发起与统筹：Valeri

研报顾问：王思涵、余振葳

审核：施老师、于老师、Valeri、王鹏翔

排版：陈顺汶

ZBlogIt

Nice to meet you, too!

具身研报04|具身智能的“看-想-动”怎么实现?硬件分析来拆解

wang 发表于2026-05-12 10:51:46 浏览5 评论0

少长咸集

« 2025年6月 »
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30