研报-State of AI-2025年大模型行业全景:从单次生成到Agent化推理的范式转变

推理模型的崛起：2024 年底 OpenAI o1 的发布是转折点，AI 从“模式匹配”转向“多步推理（推理 Token）”，导致生成内容更长且逻辑更严密。
两大核心支柱：编程与角色扮演
（1）编程已成为 AI 的第一大生产力场景，占据了超过 50% 的流量，且输入长度增长了 4 倍（上下文需求激增）。
（2）角色扮演是意外的流量巨头，在趣味性和用户留存上表现惊人。
Agent 推理：用户不再只是“一问一答”，而是将 AI 作为插件调用工具，自动化执行复杂任务。
模型竞争格局：
（1）Anthropic (Claude) 在编程领域占据绝对统治地位（约 60% ）。
（2）中国模型（如 DeepSeek, Qwen）异军突起。
（3）DeepSeek 在创意与对话领域极具性价比。
（4）Qwen 在技术和开发任务中表现强劲。

本文来源于OpenRouter与a16z（Andreessen Horowitz）于2025年12月联合发布的《State of AI: An Empirical 100 Trillion Token Study》。该报告基于OpenRouter平台超过100万亿Token的真实交互数据，深入分析了大语言模型（LLM）在实际应用中的演变趋势、用户行为及市场格局。

关于OpenRouter：

OpenRouter成立于2023年，总部位于美国纽约，其核心定位是构建中立的AI模型聚合与路由平台。该平台通过单一API网关，为开发者和企业客户提供对全球多个大型语言模型提供商的无缝访问能力，从而解决AI应用开发中的多模型集成碎片化问题。

截至 2025 年，OpenRouter 支持来自 60 多个供应商的 300+多个活跃模型，服务超过420万注册用户，支撑超过25万个应用的AI能力调用，其中超过 50%的使用源自美国境外。2025年完成4000万美元A轮融资，a16z领投，位列TMT行业募资第6位。

推理模型成为主流

如果说 2024 年以前的 AI 是靠“直觉”说话，那么 2025 年的 AI 已经学会了“思考”。自 OpenAI o1 开启推理元年后，多步思维链成为标配。与传统的单次前向传播不同，o1 采用多步骤内部推理、潜在规划和迭代优化的架构，在数学推理、逻辑一致性和多步决策方面实现了系统性提升。

这一转变迅速扩散。到 2025 年末，推理模型已占据所有 token 使用量的 50% 以上。xAI 的 Grok-3、Google 的 Gemini 2.5 系列以及 OpenAI 的 o1-mini 成为推理流量的主要承载者。这不仅是技术进步，更反映了用户需求的根本变化：从“生成文本”转向“解决问题”。

开源模型的 30% 平衡点

开源模型在 2025 年稳定占据约 30% 的市场份额，形成了与闭源模型的动态平衡。这一增长并非偶然，而是与重要开源模型的发布高度相关，如 DeepSeek-V3、Qwen 2.5 系列和 Meta 的 LLaMA 3.1。

注：按来源类型每周占总Token份额。浅蓝色代表开源模型（中国与世界其他地区），深蓝色则代表闭源产品。竖条虚线标志着关键开放权重模型的发布，包括 Llama 3.3 70B、DeepSeek V3、DeepSeek R1、Kimi K2、GPT OSS 系列和 Qwen 3 Coder。

特别值得关注的是中国开源模型的崛起。从 2024 年末不足 2% 的周使用份额，中国开源模型在 2025 年部分周次达到近 30% 的峰值，全年平均约 13%。DeepSeek 以 14.37 万亿 token 的总量领跑，Qwen 紧随其后达到 5.59 万亿。这些模型不仅在数量上增长，更在质量和应用场景上实现了突破。

开源生态也从早期 DeepSeek 的近垄断地位转向多元化竞争。到 2025 年末，没有单一模型超过 25% 的开源份额，市场呈现出 5-7 个模型均衡分布的格局。这种碎片化反映了创新的加速和用户选择的多样化。

中等规模模型的崛起

模型规模的市场偏好发生了显著变化。过去一年，小型模型（<15B参数）的使用份额持续下降，而中等规模模型（15B-70B参数）快速崛起，成为“新的小模型”。

这一趋势由几个因素驱动：

中等模型在保持合理成本的同时提供了接近大模型的能力；
推理优化技术使得中等模型的部署更加高效；
用户发现中等模型在大多数实际任务中提供了最佳的性价比。

应用场景：角色扮演与编程的双峰

真实使用数据揭示了两个主导应用场景：

角色扮演与创意对话占据开源模型使用量的 52%，远超预期。这不是简单的闲聊，而是包括游戏角色扮演、互动小说、角色模拟等结构化创意任务。开源模型在这一领域的优势在于更少的内容限制和更强的可定制性。到 2025 年末，角色扮演流量在闭源、西方开源和中国开源之间形成均衡分布。

编程辅助是增长最快的类别，从 2025 年初的 11% 飙升至年末的 50% 以上。Anthropic 的 Claude 系列长期占据 60% 以上的编程辅助份额，但竞争正在加剧。OpenAI 从 2% 增长到 8%，MiniMax 等新兴厂商也在快速崛起。编程任务的特点是极长的输入上下文（常超过 20K token），反映了代码理解、调试和生成的复杂性。

在整个开源模型应用场景下，总体来说：

**角色扮演和创意对话：占比最高，开源模型不受审查，或者更易于定制以适应虚构角色和故事任务。 **
编程辅助： **占比第二大，并且随着开源模型在代码方面的能力提升，还在增长。许多开发者利用本地的开源软件模型来编码，以减少 API 成本。 **
翻译和多语言支持： 这是一个稳定的应用场景，尤其是在强大的双语模型可用的情况下（中国开源系统的模型在这方面更具优势）。
常识问答与教育：适度使用，虽然开放模型可以回答问题，但用户可能更喜欢像 GPT-5 这样的封闭模型以获得最高事实准确性。