
推理模型的崛起:2024 年底 OpenAI o1 的发布是转折点,AI 从“模式匹配”转向“多步推理(推理 Token)”,导致生成内容更长且逻辑更严密。 两大核心支柱:编程与角色扮演 (1)编程已成为 AI 的第一大生产力场景,占据了超过 50% 的流量,且输入长度增长了 4 倍(上下文需求激增)。 (2)角色扮演是意外的流量巨头,在趣味性和用户留存上表现惊人。 Agent 推理:用户不再只是“一问一答”,而是将 AI 作为插件调用工具,自动化执行复杂任务。 模型竞争格局: (1)Anthropic (Claude) 在编程领域占据绝对统治地位(约 60% )。 (2)中国模型(如 DeepSeek, Qwen) 异军突起。 (3)DeepSeek 在创意与对话领域极具性价比。 (4)Qwen 在技术和开发任务中表现强劲。
本文来源于OpenRouter与a16z(Andreessen Horowitz)于2025年12月联合发布的《State of AI: An Empirical 100 Trillion Token Study》。该报告基于OpenRouter平台超过100万亿Token的真实交互数据,深入分析了大语言模型(LLM)在实际应用中的演变趋势、用户行为及市场格局。
关于OpenRouter:
OpenRouter成立于2023年,总部位于美国纽约,其核心定位是构建中立的AI模型聚合与路由平台。该平台通过单一API网关,为开发者和企业客户提供对全球多个大型语言模型提供商的无缝访问能力,从而解决AI应用开发中的多模型集成碎片化问题。
截至 2025 年,OpenRouter 支持来自 60 多个供应商的 300+多个活跃模型,服务超过420万注册用户,支撑超过25万个应用的AI能力调用,其中超过 50%的使用源自美国境外。2025年完成4000万美元A轮融资,a16z领投,位列TMT行业募资第6位。
推理模型成为主流
如果说 2024 年以前的 AI 是靠“直觉”说话,那么 2025 年的 AI 已经学会了“思考”。自 OpenAI o1 开启推理元年后,多步思维链成为标配。与传统的单次前向传播不同,o1 采用多步骤内部推理、潜在规划和迭代优化的架构,在数学推理、逻辑一致性和多步决策方面实现了系统性提升。
这一转变迅速扩散。到 2025 年末,推理模型已占据所有 token 使用量的 50% 以上。xAI 的 Grok-3、Google 的 Gemini 2.5 系列以及 OpenAI 的 o1-mini 成为推理流量的主要承载者。这不仅是技术进步,更反映了用户需求的根本变化:从“生成文本”转向“解决问题”。
开源模型的 30% 平衡点
开源模型在 2025 年稳定占据约 30% 的市场份额,形成了与闭源模型的动态平衡。这一增长并非偶然,而是与重要开源模型的发布高度相关,如 DeepSeek-V3、Qwen 2.5 系列和 Meta 的 LLaMA 3.1。

注:按来源类型每周占总Token份额。浅蓝色代表开源模型(中国与世界其他地区),深蓝色则代表闭源产品。竖条虚线标志着关键开放权重模型的发布,包括 Llama 3.3 70B、DeepSeek V3、DeepSeek R1、Kimi K2、GPT OSS 系列和 Qwen 3 Coder。
特别值得关注的是中国开源模型的崛起。从 2024 年末不足 2% 的周使用份额,中国开源模型在 2025 年部分周次达到近 30% 的峰值,全年平均约 13%。DeepSeek 以 14.37 万亿 token 的总量领跑,Qwen 紧随其后达到 5.59 万亿。这些模型不仅在数量上增长,更在质量和应用场景上实现了突破。

开源生态也从早期 DeepSeek 的近垄断地位转向多元化竞争。到 2025 年末,没有单一模型超过 25% 的开源份额,市场呈现出 5-7 个模型均衡分布的格局。这种碎片化反映了创新的加速和用户选择的多样化。

中等规模模型的崛起
模型规模的市场偏好发生了显著变化。过去一年,小型模型(<15B参数)的使用份额持续下降,而中等规模模型(15B-70B参数)快速崛起,成为“新的小模型”。

这一趋势由几个因素驱动:
中等模型在保持合理成本的同时提供了接近大模型的能力;
推理优化技术使得中等模型的部署更加高效;
用户发现中等模型在大多数实际任务中提供了最佳的性价比。
应用场景:角色扮演与编程的双峰
真实使用数据揭示了两个主导应用场景:

角色扮演与创意对话占据开源模型使用量的 52%,远超预期。这不是简单的闲聊,而是包括游戏角色扮演、互动小说、角色模拟等结构化创意任务。开源模型在这一领域的优势在于更少的内容限制和更强的可定制性。到 2025 年末,角色扮演流量在闭源、西方开源和中国开源之间形成均衡分布。
编程辅助是增长最快的类别,从 2025 年初的 11% 飙升至年末的 50% 以上。Anthropic 的 Claude 系列长期占据 60% 以上的编程辅助份额,但竞争正在加剧。OpenAI 从 2% 增长到 8%,MiniMax 等新兴厂商也在快速崛起。编程任务的特点是极长的输入上下文(常超过 20K token),反映了代码理解、调试和生成的复杂性。
在整个开源模型应用场景下,总体来说:
**角色扮演和创意对话:占比最高,开源模型不受审查,或者更易于定制以适应虚构角色和故事任务。 **
编程辅助: **占比第二大,并且随着开源模型在代码方面的能力提升,还在增长。许多开发者利用本地的开源软件模型来编码,以减少 API 成本。 **
翻译和多语言支持: 这是一个稳定的应用场景,尤其是在强大的双语模型可用的情况下(中国开源系统的模型在这方面更具优势)。
常识问答与教育:适度使用,虽然开放模型可以回答问题,但用户可能更喜欢像 GPT-5 这样的封闭模型以获得最高事实准确性。

Agent 化推理的全面兴起
2025 年最深刻的变化是从单轮对话向 Agent 化工作流的转变,体现在多个维度:
工具调用的普及:实际调用工具的请求稳步增长,Claude 系列、Gemini 和 GPT-4 系列引领这一趋势。到 2025 年末,Grok-3 和 Gemini 2.5 成为工具调用的主要模型。

上下文的爆炸式增长:平均提示词长度从 2024 年初的 1.5K token 增长到 2025 年末的 6K token 以上,增长近 4 倍。完成 token 也从 150 增长到 400。这一变化主要由编程任务驱动,反映了模型从“创意生成器”向“分析引擎”的转变。

序列长度的系统性增加:平均序列长度从 2023 年末的不足 2000 token 增长到 2025 年末的 5400 以上,增长超过 3 倍。编程相关提示词的平均长度是通用提示词的 3-4 倍。

这些趋势共同指向一个结论:Agent 化推理正在成为 LLM 使用的新默认模式。用户不再提出孤立的问题,而是将模型嵌入到结构化的、多步骤的工作流中,涉及外部工具调用、状态推理和长上下文持久化。

市场格局与竞争动态
2025 年的大模型市场呈现出高度动态的竞争格局:
闭源领先者:Anthropic 在编程辅助领域保持优势,OpenAI 和 Google 稳定占据各自细分市场
开源多元化:从 DeepSeek 的早期主导到 Qwen、Meta LLaMA、Mistral AI 的多方竞争
中国厂商崛起:DeepSeek、Qwen、MiniMax、MoonshotAI 等在技术和应用上快速迭代
推理模型新战场:xAI 的 Grok-3 快速占据推理流量首位,显示出这一细分市场的激烈竞争
展望
2025 年的数据揭示了大模型行业的几个关键趋势:
推理能力而非单纯生成能力成为核心竞争力;
开源与闭源形成互补而非替代关系;
实际应用场景比预期更加多元,创意和技术并重;
Agent 化工作流正在重新定义人机交互的基本模式。
对于模型开发者,这意味着需要在推理深度、工具集成、长上下文支持和特定领域优化上持续投入。
对于应用开发者,多模型策略和 Agent 化架构设计将成为标配。
对于基础设施提供商,需要支持更复杂的状态管理、工具权限控制和长会话持久化。
大模型行业已经从“能做什么”的探索期进入“如何做得更好”的深化期。2025 年的数据不仅记录了技术的演进,更揭示了人类与 AI 协作方式的根本性变革。

END
欢迎大家入交流群,获取研报原文,春节一起AI起来~