
2026年4月19日,北京举行了亦庄半程马拉松暨人形机器人半程马拉松开跑。赛场上,机器人跑步、冲线、比拼速度,成为外界关注具身智能的一次高光时刻。
可比起场上的奔跑,我们更想把目光投向场下那些看似不起眼的动作:几天后,在北京另一场机器人演示中,人形机器人开始俯身捡起垃圾、整理花束。正是在这些不那么“热闹”的瞬间,具身智能真正的产业方向变得更清晰了。因为当行业还在为机器人跑得多快、跳得多高喝彩时,另一批公司已经把重点放在了更朴素的问题上:它能不能把地上的垃圾捡起来,能不能在杂乱环境里把一束花整理好。看似简单的动作,背后对应的,却是具身智能从能力展示走向场景落地的转折。


(机器人整理花束、倒垃圾
图源:路透社)
作为北京大学学生人工智能创新会,我们持续跟踪具身智能前沿,围绕其核心技术体系与产业落地逻辑展开系统研究。具身智能系列报告将从 VLA、世界模型、数据、机器人硬件四个板块,对技术内核、关键瓶颈和产业前景进行拆解。
本次发布的研报聚焦硬件板块。具身智能硬件的核心组成、技术路线、行业现状及未来趋势,覆盖感知、决策、执行、本体、能源五大核心系统,呈现硬件领域的技术突破与产业痛点。
本文为研报预览,完整深度分析、技术细节与行业研判,请在公众号后台回复【具身智能研报】。
一、怎么看:感知系统
(一)仿生脸
你有没有见过表情僵硬的机器人?那种虽然看着像人类,却依然让人心里发毛的感觉,就是恐怖谷效应。而仿生脸的首要任务,就是填平这座山谷。因为只有当表情神态足够自然,人类才愿意开启对话。

(卓益得推出的Moya机器人)
一套完整的仿生脸,背后藏着五个关键环节,其中后面三个环节是硬件所关注的板块。

下方是首形科技2024年发布的一款表情机器人Emo的技术展示,其面部硬件系统展示了高度集成的设计思路。

(论文中所展示的Emo面部硬件系统)
目前全球的技术路线,大致有四类。每一种路线,都是在逼真度、成本和耐用性之间做取舍。首先是超写实混合驱动,代表是首形科技的精灵·璇。其次是高密模块组件,典型是英国的Ameca机器人。它有27个自由度,表情会和脖子、锁骨的姿态协同运动。以及材料触感超写实路线,如大连蒂艾斯。

(首形科技的“精灵·璇“机器人)
(二)力传感器
光靠眼睛,看不准——这是所有机器人工程师的共识。当手指碰到零件,脚底踩到石子,必须有力传感器在接触瞬间接管控制。
特斯拉Optimus机器人是个很好的范本。它的肩、肘、腰用扭矩传感器,腿部用一维力传感器。而关键的手腕和脚踝,全部用了六维力传感器。

(特斯拉Optimus机器人BOM拆解)
什么是六维力?通俗来说,它同时测量三个方向的推力和三个方向的旋转力矩。手腕装上它,拧螺丝就不容易滑丝。脚踝有了它,站在斜坡上也能自动调整重心。
从硬件上看,六维力传感器由三部分组成:弹性体是受力的骨架,常见十字梁结构;应变片把微米级的形变转成电信号;信号处理电路则负责放大、滤波和温度补偿。评价它有个核心指标叫串扰。也就是各方向信号互不干扰的程度,优秀产品能做到1%以内。

(应变式力传感器基本原理)
目前的技术路线也很多元:
1)电阻应变式最成熟,美国ATI的硅应变片信号强度是传统方案的75倍。国内蓝点触控也已经批量供货。2)MEMS应变计用半导体工艺量产,坤维科技解决了传统胶水老化的痛点,适合大规模制造。3)电容式超薄又抗撞,斯坦福的CoinFT传感器成本极低,适合做指尖感知。4)压电式刚性极高,能捕捉高频振动,但不适合测静态力,电路也复杂。

(六维力传感器技术路线原理、优缺点介绍)
二、怎么想:决策系统
在具身智能“看—想—动”的链路中,决策系统扮演着接收感知信号、进行逻辑推理并下发控制指令的“智能中枢”角色。不同于只需要执行预设程序的传统工业机器人,具身智能需要在开放、非结构化且充满未知干扰的物理环境中进行自主决策与操作,这对其算力支撑和控制架构提出了极大的要求。

(人形机器人组成示意图)
从结构上看,人形机器人由大脑、小脑、肢体三部分组成。“大脑”负责慢思考(高级认知), 解决“干什么”的问题。它需要理解人类语言、看懂周围环境,并把任务拆解。这需要极高的人工智能算力,但对反应速度的要求相对宽容。“小脑”负责快反射(运动控制), 解决“怎么干”的问题。它不管大局,只负责在几毫秒内调节全身几十个电机的转动,保证机器人不摔倒、走得稳。这不需要极高的AI算力,但对“不卡顿”的实时性要求极高。因此,在当前的物理硬件形态上,人形机器人普遍采用了“异构芯片组合,即用算力极强的SoC芯片来做“大脑”,用极其稳定且低延迟的MCU(微控制器)来做“小脑”。展望未来,行业在“软件”与“硬件”两个方向的发展正逐渐清晰,但仍处于不断探索与优化的阶段。
三、怎么动:执行系统
(一)电机与减速器
在具身智能机器人里,电机和减速器是决定“怎么动”的核心部件。简单来说,电机负责把电能转化成机械运动,相当于机器人的“肌肉”;减速器则负责把电机原本高速、低扭矩的输出,变成更适合机器人关节使用的低速、高扭矩动作,相当于“力量转换器”。二者长期以来构成了机器人执行系统的主流方案。
目前行业最常见的路径,是“高速电机+精密减速器”的组合。它的优势在于技术成熟、成本相对可控,也更容易兼顾力量、精度和稳定性,因此被广泛应用在人形机器人和工业机器人中。尤其是在大多数关节场景下,机器人需要的不是单纯转得快,而是要稳、准、有力,这正是减速器存在的意义。
但另一条值得关注的路线,是直驱电机。所谓“直驱”,就是电机本身直接输出足够大的扭矩,从而省去减速器这一中间环节。之所以能去掉减速器,是因为这类电机通过更高的扭矩密度设计,直接满足关节驱动需求。它的好处是结构更简单、传动损耗更低、响应速度更快,但难点在于成本更高、体积和控制要求也更苛刻。
往后看,具身智能的发展方向,正在从“能动起来”走向“动得更自然、更高效、更低成本”。这也意味着,传统电机+减速器方案仍会是主流,但直驱、一体化关节模组以及更高国产化率,都会成为下一阶段的重要趋势。
(二)丝杠
在执行系统中,丝杠作为将旋转动力转化为直线运动的关键部件,是价值量最高、制造壁垒最深的环节之一。当前全球高端丝杠市场高度垄断,外资品牌占据约85%的国内份额。面对人形机器人百万台量级的市场与迫切的降本诉求,传统的纯磨削工艺面临效率与成本瓶颈,中国本土企业正凭借“复合加工工艺”与“底层设备国产化”加速破局。

(丝杠基本功能原理)
(三)灵巧手
人形机器人能否进入为人类设计的环境、使用为人类设计的工具,相当程度上取决于手。2024年底以来,特斯拉 Optimus 将手部自由度从11升至22,国内宇树、智元等也相继发布自研灵巧手,行业进入密集迭代期。灵巧手设计的核心矛盾是精度、成本与轻量灵活性之间的三元权衡。精度越高,独立驱动单元和精密零部件越多,成本随之攀升;追求轻量则限制体积重量,与高精度传动所需的复杂机构相悖;降低成本则意味着减少驱动器或放宽传动精度。三者难以同时充分满足。
四、谁来动:本体部分
感知负责看,决策负责想,而本体负责动。在产业链中游,本体制造把电机、减速器、传感器等零部件拼成一整台能站能走的物理系统,它直接决定了运动性能、可靠性和量产成本。

(具身智能产业链)
(一)人形机器人
人形机器人被公认为通用场景的理想形态,因为这个世界是为人类建造的。只有人形,才能像人一样用工具、上楼梯、进工厂、做家务。
当前,人形机器人整体处于L3向L4过渡的阶段。L3能感知环境、在特定场景自主行动,而L4需要理解任务和语义,在非结构环境中自己做决定。
那么本体厂商到底在硬件方面做什么?主要是三件事:机械结构层的关节布局与自由度分配;驱动传动层的电机、减速器选型与集成;底层控制层的关节级算法与整机运动控制。
什么样的本体厂商能活下来?从需求侧看,产品性能要过硬,场景落地要真实,价格要可控。从供给侧看,硬件架构必须收敛,关键执行器最好自研,供应链成熟度直接决定量产节奏。
目前全球的本体玩家大致分三类。
第一类是创新破局者,以宇树科技、智元机器人、星动纪元为代表,他们技术突破快、资本驱动强。
第二类是技术积淀派,包括优必选、波士顿动力、埃斯顿这些老牌选手。
第三类是场景渗透者,主要是特斯拉和小鹏这样的车企。汽车与人形机器人的供应链高度协同,电机、减速器、传感器可以直接复用。
(二)非人形机器人
在具身智能产业链里,非人形机器人本体更像是真正承接商业化落地的一环。相比仍在追求“通用能力”的人形机器人,非人形机器人往往面向更明确的任务场景,比如巡检、水下作业、测绘和应急,因此更容易率先跑通商业模式。它的核心竞争力也不只是“硬件做得强”,而是能不能把机械结构、感知系统、控制算法和场景需求真正整合起来,变成一套稳定、可交付、可复制的解决方案。
从细分方向看,四足机器人更强调复杂地形下的移动与巡检能力,水下机器人比拼的是高可靠性和工程交付,飞行机器人则正在从传统无人机走向更自主的“飞行智能体”。这些赛道虽然形态不同,但底层逻辑一致:谁能更理解场景、谁能更稳定完成任务、谁就更有机会率先建立行业壁垒。
往后看,非人形机器人不会只是“替人干活的机器”,而会逐步成为面向垂直行业的智能作业平台。随着AI能力持续下沉,行业竞争也将从单机性能,进一步转向系统集成、场景工程化和规模化交付能力。
展望未来,一个清晰的信号已经出现:本体不再是最大的瓶颈。硬件架构逐步收敛,供应链日趋成熟,头部企业已实现千台级交付。行业竞争的重心正从造身体转向练大脑。
正如Figure AI的CEO所说,核心在于率先实现通用化,这是技术研发问题,不是单纯的制造问题。单纯靠规模效应降本空间有限,BOM各环节的结构成本压缩很难。
未来的竞赛,将围绕机器人大脑的训练、场景泛化能力的提升和商业化闭环的构建展开。身体的上半场快结束了,大脑的下半场才刚刚开始。
五、如何驱动:能源系统
当前主流人形机器人的续航大约在两到四小时之间,而工业场景普遍要求连续工作接近二十小时。这个缺口,很大程度上来源于电池问题。
人形机器人对电池的要求比较特殊。它需要同时满足高能量密度、高倍率放电和高安全性。机身空间有限,关节电机的瞬时功率需求极高,又因为工作于近人环境而对热失控零容忍。这几个目标叠加在一起,使得人形机器人的电池需求有别于新能源汽车等场景。
目前机器人普遍搭载高镍三元液态电池,成熟、可量产,是现阶段跑得起来的方案。但受制于能量密度的物理上限,这条路线的改进空间有限。与之相对应,固态电池被更多人视为更长期的方向。固态电解质不可燃,安全性从材料层面就有了保障,理论能量密度也显著高于液态三元体系。已有搭载固态电池的机器人产品验证了续航的显著提升,方向上的共识正在形成。
当然,落地也存在困难。机器人的构型和功耗需求仍在快速迭代,电池的定制化开发面临较大的不确定性;成本也明显高于液态路线。产业化初期,续航并不是机器人企业最优先解决的问题,这在一定程度上减缓了固态技术的推进节奏。
从企业布局来看,头部电池厂已在固态路线上有实质性进展,部分半固态产品已实现量产装车。人形机器人也是业界公认的、固态电池最早可能实现高价值商业化的应用领域之一。

北大学生人工智能创新会,简称PKU SAIIC,是北大校内唯一的人工智能社团,由校团委,计算机学院团委、人工智能创新中心共同领导,施柏鑫老师指导。
研报作者:沈恩昊、吉宇涵、顾苏灵、陈顺汶
系列研报发起与统筹:Valeri
研报顾问:王思涵、余振葳
审核:施老师、于老师、Valeri、王鹏翔
排版:陈顺汶