高盛研报解析:AI智能体,Token消耗与毛利率双拐点

一、Token经济学反转与算力毛利率拐点

AI大模型正从对话式交互向全自动处理复杂任务的Agent（智能体）演进，这一底层应用逻辑的切换将直接驱动Token消耗量的量级跃升。目前底层算力成本正以年化60%-70%的速度显著下降，而头部LLM的Token定价已从前期年化40%的跌幅进入企稳阶段。Token定价曲线与算力底座成本曲线的剪刀差，预计将在2026年上半年为基础设施提供商形成明确的毛利率正向拐点 。这种单位经济模型的实质改善，为大厂维持当前高昂的资本开支（CapEx）提供了商业逻辑支撑。

二、C端智能体：从单次交互到后台常驻的算力黑洞

C端用户的AI使用习惯正发生迁移，2025年单次大模型对话平均消耗约1715个Token，而一旦转为后台常驻、持续监测系统状态的个人助理智能体，单用户日均Token消耗量将直接飙升至10万个以上 。数据推演显示，到2030年全球C端AI日查询量将从2025年的约50亿次激增至230亿次，其中约30%的查询将由智能体直接接管。这种全天候的运行机制，将在2030年每月额外制造60000万亿个Token需求，拉动全球整体Token消耗量扩张至2026年水平的12倍 。

三、B端工作流重构：API成本与人力成本的ROI博弈

在B端知识工作领域，目前70%-90%的企业处于实验阶段，仅不到四分之一开始规模化部署智能体。B端业务需要极高频的多模态输入、长逻辑推理循环与系统验证机制，预计到2040年达到约37%的峰值渗透率时，将推动B端Token消耗量暴增55倍，对应约1.4万亿小时的劳动力工作量及5.4万亿美元的软件市场空间 。产业落地节奏不取决于技术曝光度，而完全取决于单一工作流的API调用成本与现实人力成本的博弈平衡点。

四、垂直岗位测算：文本处理与多模态成本的极度分化

不同商业场景下的算力成本呈现极度分化，文本密集型工具链已率先跨过盈亏平衡点。一个标准代码编写智能体日耗约700万Token，API成本仅约13.39美元；一个数据录入智能体日耗约2500万Token，成本约59.68美元，均大幅低于人工成本。相比之下，高度依赖实时语音、低延迟和多模态交互的呼叫中心客服智能体，虽然日耗仅约200万Token，但API日成本高达约92.90美元，现阶段已超出90美元的单日人工成本。这种微观数据层面的成本错配，将主导企业优先在纯文本和后台端实现AI渗透。

五、行业观察

伴随Token消耗量的指数级扩张与大模型交付成本的快速下探，算力基础设施与企业级应用链条的底层商业价值正在重估。

该产业链条的核心枢纽包括：提供定制化硅片与高算力商用GPU的底层硬件供应商（Broadcom、Nvidia、AMD）；

具备全栈云基础设施与消费级分发引擎的互联网平台（Alphabet、Amazon、Meta）；

以及卡位企业工作流入口与边缘侧算力调度的软件及IT服务商（Microsoft、Cloudflare、Accenture）。

风险提示：智能体技术规模化落地不及预期、宏观IT预算收缩、算力成本下降放缓。

知识星球| 每日更新最前沿投研头条

追踪市场动态，过滤信息噪音，捕捉预期差；

内置投研数据库，研报资料随时搜索、下载。

核心逻辑与深度解析在【Mark专栏】

欢迎加入我们一起交流学习👇