倘若Scaling Law被视为驱动大模型性能进阶的核心法则,那么对算力成本的有效管控便构成了整个行业发展与商业落地的根基。
今年初,DeepSeek在海外开源社区迅速崛起,关键因素在于其将同等性能模型的推理与训练算力成本大幅削减至10%以内。同时,MoE架构自GPT-4发布后,逐步取代传统稠密架构,成为主流开发者的默认选择,核心优势正是显著降低了模型推理的算力开销。
而OpenAI随GPT-5推出的“路由”功能,初衷是自动将简单问题分配至低消耗模型,复杂问题匹配至高消耗推理模型,以提升用户体验与算力效率,却意外演变为AI圈知名的“降本增笑”事件。
即便GPT-5发布已近一月,OpenAI仍未完全满足用户期望,网友持续吐槽其无法解决某些简单问题。尽管OpenAI回滚GPT-4o并允许用户手动切换推理与基本模型,使多数用户开始认可“GPT-5性能显著优于前代”,但Sam Altman也无法否认GPT-5的发布确实漏洞百出。
造成翻车的直接原因,是路由功能未能精准匹配用户预期与模型能力。
那么,为何OpenAI甘冒“发布即翻车”之险强推路由功能?
首要原因是,GPT-5发布前,OpenAI并行推出超过5个模型,让用户依据需求选择合适模型。随着模型增多,不仅普通用户,连ChatGPT重度用户也难以决策当前任务的最佳模型。
对于志在将ChatGPT打造为AI时代超级应用的OpenAI,此情况不可持续。特别是面向海量未接触大模型的普通用户,代为匹配任务与模型是OpenAI的必经之路。
更深层原因在于算力成本:自推理模型出现后,每次查询都需在推理与非推理模式间选择。调配“深度思考”能力的效率,直接决定大模型产品的算力使用效能。
学术研究表明,推理与非推理模型的算力差异可达5-6倍。对于复杂问题,通过思维链等技术消耗的推理token数可能高达上万个。
在延迟方面,推理与非推理过程差异更显著:OpenAI数据显示,推理模型处理复杂问题所需时间可达非推理模型的60倍以上。
即使对于许多需复杂推理的任务,在消耗巨量算力与时间后,结果准确性提升仅约5%。为这5%的性能增益,应投入多少算力?
简单计算:若所有任务默认使用推理模型,路由功能识别出10%的问题可用简单非推理模型完成,算力成本可降低8%(假设推理与非推理算力比5:1)。
若此比例提升,节省的算力成本更可观。对于服务数亿用户且算力紧张的OpenAI,路由功能关乎商业模式可持续性。
行业层面,第三方平台(如OpenRouter)将“自动路由与回退”作为基建能力:主模型拥塞时自动切换次优模型以稳定体验。微软Azure等AI算力云供应商也将多模型路由作为核心卖点。
或许,GPT-5发布后,OpenAI的核心任务是在“质量-延迟-成本”三角中寻求每请求的最优平衡。当前官方对GPT-5的定位与“内置思考”叙事,实则是将“路由+推理强度”作为默认能力,并通过ChatGPT端的“Auto/Fast/Thinking”赋予用户一定可控性。
构建高效大模型路由功能究竟多难?
外媒向UIUC计算机科学助理教授求证,答复是“这或许是亚马逊推荐系统级别的挑战,需大量专家多年努力才能达成满意结果。”路由系统本质是“多目标+强约束”的工程问题,需在质量、延迟、成本、容量与成功率间实时优化。
理论上,语义级路由并非最优解。DeepSeek近期发布的DeepSeek V3.1尝试混合推理与非推理模型,在更深层次构建高效路由系统,以提升“推理-非推理”选择效率。
网友体验反馈显示,新混合推理模型相比DeepSeek-R1-0528思考速度更快、答案产出更短:简单问题上推理过程缩短超10%,正式输出平均仅1000字,较R1的2100字提升近一倍。
但新模型也暴露出稳定性问题:如输出中频繁出现无关的“极”字bug,以及中英夹杂现象加剧,类似刚回国留学生的表达风格。
即便如DeepSeek这样的顶尖团队,将“推理-非推理”选择内置模型后仍出现稳定性挑战。OpenAI与DeepSeek在首款高效调度“深度思考”能力模型上的翻车,侧面印证此问题的难度。
效率提升的另一面,是OpenAI对算力的“极度渴求”仍在持续。
年初DeepSeek V3和R1引发的算力供应商前景担忧,数月后演变为“AI成本悖论”——token单价下降但模型性能成长,使原本不经济任务也能交予大模型,处理任务更多样复杂,进一步推高token总需求。
OpenAI正推进代号Stargate的基础设施扩张:2025年7月,OpenAI与Oracle宣布在美国新增4.5 GW数据中心能力。
昨日,外媒报道OpenAI正物色印度当地合作伙伴,计划在新德里设办公室,将印度(其第二大用户市场)增长与本地算力配置对接,在印度建设至少1Gw规模数据中心。
“AI成本悖论”一方面推高英伟达与AI云服务商业绩,同时对降低算力需求的“路由”功能提出更高要求。
Sam Altman反复强调“2025年底上线GPU超100万片”目标,长远愿景瞄准“一亿GPU量级”。此类表态侧面说明:即使推理单价下降,更复杂任务与更高调用量使大模型“总账单”不会自动降低——必须依靠路由将昂贵推理时段“分配至真正需要的场景”。
从大模型第一性原理出发,所有公司追求的终极标准是提升“算力兑换智力”的效率。高效调度“深度思考”能力,在推理大模型时代决定了大模型公司能否在系统效率、商业效能与用户体验上领先行业。
本文由主机测评网于2025-12-28发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251213384.html