
当跑分不再性感,行业在重新寻找标尺
2025 年的 AI 世界,弥漫着一种"跑分疲劳症"。但比这更深刻的,是一个正在加速成型的行业共识:开源模型正从"可选项"走向"默认使用的必选项"—— Interconnects.ai 在其年度回顾《2025: Open Models Year in Review》中用大量篇幅讨论了这一趋势,DeepSeek、Qwen、Kimi 成为最前线的开源模型。

图源: Interconnects.ai
衡量顶尖模型的标准,正在经历一次深刻的变革。行业心态正从"选秀式逐冠军",转向"基建式找伙伴"。在这个新范式中,模型的基础能力只是入场券,而由评测、部署、交付三个维度构成的"信任",才是让 AI 真正融入业务流程的通行证。
本篇年终盘点,将从这三个最务实的维度出发,解构 AI 行业正在形成的"信任法则"。
信号:从"尝鲜"到"留存",生产力拐点已现
过去,每一轮模型发布都像一场烟火,热度在瞬间冲顶后迅速归零。开发者"尝鲜即走",留不下真实使用。
而 2025 年的图表,第一次向我们展示了截然不同的曲线。
权威的 AI 模型路由平台 OpenRouter 在其年终发布的《The 2025 State of AI Report》报告中,揭示了一个关键转折。报告指出:开源权重模型的 token 份额,在经历了数次关键发布(如 DeepSeek V3、Kimi K2、Llama 3.1 等)后,于 2025 年底稳定突破了平台总量的三分之一。最关键的信号在于,这些模型的调用量在发布会带来的峰值之后,并未像以往那样断崖式坠落,而是稳定维持在一个远高于发布前基线的新平台上。

开源模型 token 份额在关键发布后实现"峰值后高位平稳"。图源:OpenRouter
更具说服力的数据来自任务复杂度的变化。报告显示,专用于复杂推理、规划和代理任务的"推理类模型"(Reasoning Models)的调用量,在一年内经历了爆炸式增长——从 2024 年底几乎可以忽略不计的份额,飙升至占据超过 50% 的 token 消耗份额。与此同时,API 调用的平均任务长度(Average Sequence Length)也在过去约 20 个月显著上升:从 2023 年后期不足 2000 tokens 增长到2025 年后期超过 5400 tokens。
这组曲线的意义,远超过任何一场新模型发布:真实世界的复杂任务,终于开始稳定地交给 AI 完成。

Reasoning 模型 token 份额与平均序列长度:任务复杂度显著提升。图源:OpenRouter
这组曲线的意义,超过任何一场新模型发布:真实世界的复杂任务,终于开始稳定地交给 AI 完成。2025 年的"高位平稳期",标志着行业第一次从"技术玩具"跨向"生产工具",信任正在取代新奇,成为驱动 AI 应用的根本力量。
评测:从分数游戏到体系共识
尽管行业对"刷榜"感到疲劳,但在模型发布初期,赢得关键榜单的头筹,依然是获取开发者和社区关注、赢得"入场券"的必要步骤。一个模型只有先被"看见",才有可能被"信任"。
2025 年,一个赢得这张"入场券"的典型代表就是 Kimi K2 Thinking。它在发布时,同时在两大关键评测中登顶:
在评测机构 Artificial Analysis 的体系中,Kimi K2 Thinking 在其 Intelligence Index 上获得了 open-weights 模型中的最高分

Artificial Analysis Intelligence Index by Open Weights vs Proprietary ( 7 Nov 25 ) 图源:Artificial Analysis
在基于人类盲测偏好的LMSYS Chatbot Arena 上,Kimi K2 在2025-07-17 的 Arena leaderboard 上,Kimi K2 在开源模型中排名第一。
这一系列亮眼的成绩,加上被 Interconnects.ai 的知名分析师 Nathan Lambert 选入年度前三模型,使其迅速获得了全球范围的关注。但榜单之外,来自资深从业者的实际选择,也成为衡量模型价值的新维度。例如,由前 OpenAI 首席技术官 Mira Murati 创办的新公司 Thinking Machines Lab,在其备受瞩目的首款产品 Tinker 中,便集成了 Kimi K2 Thinking,以支持其复杂的推理与工具调用功能。这种基于产品需求的集成决策,正成为比排名更具参考价值的行业信号。

图源:X@miramurati

图源:X@thinkymachines
如今,单一榜单已无法定义模型,一个由数据驱动和使用实证构成的多维评测体系正在形成:
1. 数据驱动型:性能与成本的双轴平衡
以分析机构Artificial Analysis 为代表。其提出的"智能指数 + 成本指数" 双轴框架,将性能与成本同时纳入评估,直观地揭示了模型的"性价比"。该评估涵盖智能度、成本、可控性、生态适配度四大方面,数据来源包括 Hugging Face、OpenRouter 的真实调用,强调"最聪明的不一定最经济,最经济的未必最可靠"。

" Analysis of OpenAI ’ s gpt-oss models " ( Aug 6, 2025 ) 图源 : Artificial Analysis
2. 使用实证型:来自生产现场的真实反馈
以OpenRouter 为代表。其积累的 100T tokens 真实调用数据,让评测不再是"实验室成绩",而是"生产实测数据"。其中包括模型在不同任务下的成功率、token 序列长度、调用失败率等。一个模型能否在峰值后维持高位调用,是其产品力最直接的证明。
权威榜单的"高分"是敲门砖,而后续在多维评测体系和真实使用数据中的持续优异表现,共同构成了"信任的量化坐标"。
部署:让模型"跑得起"的基础工程
评测是把模型"测出来",部署则是把模型"跑起来"。企业真正关注的是"跑得起、跑得稳、跑得久"。2025 年,可部署性成为信任的第二地基。
硬件巨头NVIDIA 在 GTC 大会上公布的数据成为重要背书:Kimi K2 Thinking、Qwen2 等 MoE 模型在最新的 GB200 NVL72 架构上,实现了10 倍推理加速,同时每 token 成本降低 90%。这证明了这些模型具备了大规模产业化部署的潜力。
与此同时,以Fireworks、Together、OpenRouter 为代表的云端推理平台,也推动了部署成本的透明化。它们公开每百万 tokens 的精确报价,让模型调用从过去的"估价"模式,彻底转变为像云计算资源一样"明码标价",性价比成为可量化的硬指标。
交付:治理与可控,信任的最后一公里
如果说评测和部署解决了"能不能用"和"用不用得起"的问题,那么"交付"就是确保模型在企业环境中"跑得稳"的最后一公里。它关乎可治理、可观测、可复现。
可治理:进入企业级栈
2025 年 Q4,AWS、Azure、Google Cloud 三大云厂商几乎同时将 Claude、Kimi、Mistral 等顶级模型纳入其企业级托管服务。这意味着企业可以通过统一的 API 调用这些模型,并享受云平台提供的统一安全、权限管理和 SLA 保证,模型被正式纳入了企业 IT 治理框架。
可观测:工具调用性能被量化
长期以来,"相同模型、相同工具,结果却不稳定"的问题,是 Agent 应用落地的巨大障碍。2025 年,行业在可观测性上取得重要进展。受 Moonshot AI 等团队在工具调用可靠性方面的工程实践启发,OpenRouter 在 10 月推出了 exacto 系统。该系统专注于量化和监控模型在工具调用任务上的表现方差(variance),通过遥测数据确保工具调用的稳定性和一致性。这标志着行业开始用工程化手段,解决 AI 在复杂任务中的可靠性问题。

图源 : Openrouter
可复现:从"结果可感知"到"过程可执行"
对于高风险领域,AI 的"黑箱"特性是应用的最大障碍。2025 年,行业在"可复现性"上迈出关键一步。Hugging Face 展示的Kimi K2 Thinking 应用示例中,清晰记录了模型执行多步工具链(search → browse → code → report)的全过程,每一步的 trace 都被完整记录。这标志着模型能力不再停留于"输出好看",而是进入了"流程可复现、任务可交付"的阶段。
结尾:下一站,业务可靠性
回望 2025,AI 行业最重要的事件并非谁赢了榜单,而是行业在喧嚣过后,终于共同确立了一条从"跑分"到"信任"再到"生产力"的可验证路径。
赢得榜单是赢得关注的开始,而赢得信任才是商业成功的核心。一个模型只有在评测、部署、交付的全链条上都表现出色,才能真正从一个"高分模型"转变为企业的"可靠伙伴"。
OpenRouter 的年终报告已经为 2026 年指明了关键词:卓越运营(Operational Excellence)——未来焦点将是任务完成率、生产稳定性以及与真实工作负载的对齐。Partnership on AI 与微软 AI Red Team 的研究也指出,未来竞争的核心不再是智能度,而是可控性、安全性与可观测性。
信任,从来不是信仰,而是工程。
赢得信任的模型,才可能成为 2026 年的真正生产力。
References:
https://a16z.com/state-of-ai/
https://openrouter.ai/announcements/provider-variance-introducing-exacto
https://www.interconnects.ai/p/2025-open-models-year-in-review?locale=zh_CN
https://www.nist.gov/news-events/news/2025/12/caisi-evaluation-kimi-k2-thinking
https://blogs.nvidia.com/blog/mixture-of-experts-frontier-models/
https://thinkingmachines.ai/blog/tinker-general-availability/
https://huggingface.co/moonshotai/Kimi-K2-Thinking?utm_source=chatgpt.com
配资平台咨询提示:文章来自网络,不代表本站观点。