文章作者、来源:InfoQ Agent 狂吞 Token,表面是模型之争,底层全是煤电博弈。 AI 开始进入算账阶段 过去一年,模型厂商不断降价,DeepSeek、通义千问、智谱、MiniMax 等国产模型,也把大模型调用价格拉到了一个新的区间。表面看,Token 价格是模型厂商之间的竞争结果,可如果往更底层看,每一个文章作者、来源:InfoQ Agent 狂吞 Token,表面是模型之争,底层全是煤电博弈。 AI 开始进入算账阶段 过去一年,模型厂商不断降价,DeepSeek、通义千问、智谱、MiniMax 等国产模型,也把大模型调用价格拉到了一个新的区间。表面看,Token 价格是模型厂商之间的竞争结果,可如果往更底层看,每一个

Token 降价的尽头,是一度电的账

2026/06/30 12:40
阅读时长 31 分钟
如需对本内容提供反馈或相关疑问,请通过邮箱 crypto.news@mexc.com 联系我们。

文章作者、来源:InfoQ

Agent 狂吞 Token,表面是模型之争,底层全是煤电博弈。

AI 开始进入算账阶段

过去一年,模型厂商不断降价,DeepSeek、通义千问、智谱、MiniMax 等国产模型,也把大模型调用价格拉到了一个新的区间。表面看,Token 价格是模型厂商之间的竞争结果,可如果往更底层看,每一个 Token 背后,都有一条从电力、土地、机柜、制冷、网络、存储、GPU 调度到企业内部使用方式的长链条。

优刻得董事长兼 CEO 季昕华在接受 InfoQ 采访中谈到,今天企业老板最关心的事情大致有三件:第一,如何让员工用上、用好 AI;第二,用了一段时间后发现成本很高,如何降低成本;第三,如何真正提高效率。也就是说,AI 不是不用了,而是开始进入算账阶段。

Token 成本不只是 API 标价问题,它正在变成一场贯穿“电力—算力—模型—应用—组织”的系统工程。

优刻得到乌兰察布,最早不是因为 AI。

据优刻得副总裁刘杰回忆,2017 年筹划建设乌兰察布数据中心时,AI 还没有真正起来。当时更多考虑的是 CPU 业务,第一栋楼最初也是按照 CPU 计划来做,后面才逐步转向 GPU。那时 优刻得的设想,是把乌兰察布作为服务北京的“前店后厂”:北京是用户和业务前台,乌兰察布提供低成本、低时延的数据中心支撑。

选择乌兰察布也不是拍脑袋。季昕华提到,当时苹果在国内选数据中心,由于对优刻得的技术水平比较认可,曾让优刻得一起参与选址。他们团队跑了很多地方,从贵州、四川、重庆、青海、宁夏、甘肃一路看到内蒙古,最后发现乌兰察布是一个很适合建数据中心的地方。

原因很直接:第一,电比较便宜;第二,苹果要求 100% 绿电,内蒙古有机会做到;第三,天气比较冷,PUE 更好做;第四,离北京近,不管是网络时延,还是人员往来,都比较方便。

这些因素放在云计算时代已经重要,放到 AI 时代更重要。

因为 AI 最终会把所有成本打穿到电力上。季昕华在谈到 Token 降本时说得很直白:Token 的终局是电力,电便宜,Token 就便宜。内蒙古的优势也正在这里。

在现场交流中,刘杰表示,他们其实也算过一笔账。

这就是为什么数据中心选址、电价、PUE、高功率机柜,会直接影响 Token 成本。

过去 IDC 行业讲“柜子”,更关注机柜数量。但 AI 时代,“多少个柜子”本身已经不够说明问题。优刻得青浦数据中心约 42 亩地,设计容量约 5000 个机柜;乌兰察布园区约 212 亩地,设计容量约 12000 个机柜。但季昕华和优刻得方面都提到,传统机柜和今天 AI 算力需要的高功率机柜已经不是一回事。

大模型训练和推理需要更高的功率密度。普通机柜可能放不下多台高功耗 GPU 服务器,单机柜供电能力、散热能力、网络布线、液冷能力,都会重新定义数据中心价值。现场交流中提到,液冷单机柜可以做到 35 千瓦,这背后需要电路和散热系统专门改造。

如何真正降低 Token 成本?

这也是为什么一些传统低功率数据中心正在出现空置,而高功率数据中心反而供不应求。

季昕华提到,国内现在有些原来低功率数据中心空闲率比较高,但像优刻得这类高功率数据中心,还没有开始建,就已经有订单进来。季昕华表示,新建的数据中心按照前几栋楼的情况和市场需求判断,满载率预计会非常高,已有一些签约订单。

数据中心的成本竞争,正在从“有没有楼”转向“能不能承载 AI”。

乌兰察布的优势也不只是便宜电。

这里海拔较高,年均温度低,天然有利于制冷。PUE,也就是能源使用效率,是数据中心非常关键的指标。简单说,数据中心总用电中,真正用于服务器计算的比例越高,PUE 越低,能源利用效率越好。气温低意味着制冷能耗下降,PUE 更容易做低。

此外,乌兰察布所在区域的能源结构相对稳定。这里有风电、光电,也有煤电,供电结构更稳。对于 AI 数据中心来说,便宜电固然重要,但稳定电力同样重要。

GPU 集群不怕贵一点,怕的是中断和不稳定。训练任务一旦中断,损失的不只是电费,还有时间、算力窗口和客户信任。

所以,Token 降本的第一层答案,是选对地方,把电力成本压下来,把 PUE 做下来,把高功率机柜建起来。

但这只是开始。

降低Token成本的五个方向

季昕华在谈到如何降低 Token 成本时,给出了几个方向。

第一个方向,是使用国内模型。相较海外模型,DeepSeek 等国内模型在价格上有明显优势,智谱、MiniMax 等客户和模型厂商也在持续提升能力。对很多企业应用来说,并不是所有任务都必须调用最贵、最强的模型。一个 85 分的模型在某些任务上确实更好,但一个 80 分模型如果也能完成任务,且成本低得多,就会成为更现实的选择。

第二个方向,是从技术上提高“每度电产生 Token 的数量”。这句话很关键,它把 AI 成本问题重新拉回到基础设施效率上。过去大家习惯讨论每百万 Token 多少钱,但真正决定长期成本的,是每一度电最终能转化成多少有效 Token。GPU 利用率、推理框架、模型部署、网络通信、存储读写,都会影响这件事。

第三个方向,是选择合适的数据中心位置。内蒙古这种电力和气候条件较好的地方,可以在底层成本上形成优势。乌兰察布更适合训练,以及覆盖北方的大部分推理需求;而上海的青浦更适合华东地区对时延更敏感的业务,比如金融、汽车等场景,也更适合部分推理业务。这实际上对应了“东数西算”的分工逻辑:不是所有算力都必须离用户最近,也不是所有算力都适合放到西部,而是要按任务类型拆分。

第四个方向,是模型组合。季昕华提到,不同模型的能力边界不同,企业不能总想着用一个模型解决所有问题。比如有些模型适合前端代码,有些模型适合后端,有些模型适合测试,有些模型适合需求分析或写作。未来更合理的方式,是把一个任务拆开,让不同模型处理各自擅长的部分,甚至由平台自动帮用户选择模型。

这点非常重要。因为 AI 降本并不等于一味调用便宜模型,而是在“效果”和“成本”之间做动态路由。一个复杂任务里,真正需要顶级模型处理的部分可能只有 20%,其他部分可以交给更便宜、更快的模型完成。这样才是面向企业级 AI 应用的真实降本。

第五个方向,是 Prompt 管理和 Prompt Engineering。很多企业现在一边喊 AI 成本高,一边并没有建立内部使用规则。员工怎么提问、调用什么模型、是否复用模板、是否重复调用、是否把简单问题交给高价模型,这些都会影响 Token 消耗。季昕华提到,让员工按照一定规则用好 Token,也是降本的重要手段。

这就把问题从基础设施推进到了组织管理。

企业真正的问题不是“有没有 AI”,而是“AI 花出去的钱有没有产生价值”。

季昕华谈到,优刻得内部每天都会看 AI 使用报告,包括多少员工用了 AI、用了多少钱、用在什么场景上。Coding 是用量非常大的场景,查询、PPT 等场景也在增长。但他也承认,目前最大的问题,是如何衡量这些投入到底带来了多少产出。

这可能是所有企业都绕不开的问题。

AI 工具铺开之后,会出现三类情况:第一,很多员工还在摸索怎么用,效果并不稳定;第二,有些调用并不是为了公司业务,而是个人使用;第三,真正用于公司工作的部分,到底提效多少,还需要评估。季昕华提到,优刻得正在做一个产品,帮助企业分析员工使用 AI 是否用于公司工作,以及使用效率是否高。

Token 需求不会只是一次热闹

这其实是 Token 时代企业管理的新命题。

SaaS 时代,企业买软件,通常按账号、席位、模块付费。员工越活跃,往往说明软件价值越高。但 AI 不一样,用得越多,成本越高。如果企业没有治理体系,老板推动 AI 之后,很快就会遇到一个尴尬局面:感觉没有明显提效,但账单多了一大块。

因此,便宜 Token 的另一面,不是无限调用,而是 Token 治理。

这也是为什么季昕华把“如何让老板或管理干部评估 Token 产生的效益”视为当前最大的挑战之一。

AI 真正进入企业,不只是技术升级,也会倒逼生产关系调整。

未来组织里,高层更需要回答“做什么”和“为什么做”,AI 更多解决“怎么做”,中间还需要懂业务、懂架构的人来驾驭 AI,避免 AI 做着做着跑偏。

他甚至谈到,AI 时代的人才观也会变化。过去企业招聘更看重经验,但有了 AI 之后,学习一门新技术的门槛下降了。主动性、好奇心、自我反思能力、业务理解,可能变得比单纯经验更重要。因为 AI 每天都在变化,真正稀缺的不再只是“会不会写代码”,而是能不能判断问题、拆解任务、驾驭工具,并把 AI 产出落到业务结果上。

这也解释了为什么 Token 需求不会只是一次热闹。

对于算力需求是否长期持续,季昕华给出的判断比较明确:Token 增长是长期趋势。年初某些现象级智能体应用带动了普通用户快速体验 AI,但即便热点退去,Token 量仍在快速增长。

原因在于,AI 能力本身在提升,尤其是 Coding 能力已经让 AI 真正进入“干活”阶段;视频、图片模型让短剧、漫剧等内容生产释放出大量需求;广告营销、市场推广、财务、HR 等企业内部岗位也开始使用 AI;此外,录音转会议纪要、智能眼镜、智能戒指等 AI 硬件,也在持续消耗 Token。

这几个需求来源有一个共同点:它们不是单次尝鲜,而是工作流、内容流和硬件入口的持续消耗。

其中,Coding 是最明确的增长场景。AI 写代码的能力提高后,企业内部研发效率和工作方式会发生变化。后端工程师可以借助 AI 快速写前端,测试和运维边界也会被打通,非研发人员也可以用 AI 完成部分过去无法独立完成的工作。

图像、视频、漫画、短剧则是另一类消耗大户。生成式内容的特点是计算密集、调用频繁、结果需要反复调整,天然会产生大量 Token 和算力需求。

再往外看,AI 硬件把调用入口从电脑和手机扩展到录音设备、眼镜、汽车、戒指等终端,一旦硬件入口真正铺开,算力需求会更加碎片化、常态化。

这也是 优刻得判断高功率数据中心会持续供不应求的原因。

AI 发展最大瓶颈:物理基础设施跟不上

季昕华把当前国内外的瓶颈做了区分:国内最大问题是缺卡,海外则是缺数据中心。国内 GPU 供应受限,所以首先要找到卡;但有卡之后,还需要高功率数据中心来承载。海外很多区域的算力基础设施还远落后于中国,除了美国之外,不少国家当前反而有大量存储需求,比如数字城市、视频监控数据存储等。

在国内,基础设施瓶颈主要有三个:卡的瓶颈,数据中心审批和统一管控的挑战,以及旧基础设施上的电和水的挑战。中国不缺电,但电力配套要跟着产业发展。比特世界的需求可以指数级增长,但物理世界是原子世界,电网、水、机房、设备交付、施工周期,都有现实约束。

这句话很适合作为观察 AI 基础设施的底层逻辑:数字需求跑得太快,物理供给跟不上。

而在物理供给里,国产算力也是一个绕不开的话题。

季昕华认为,国产 GPU 这几年在国家支持和市场需求引导下,性能提升很快,目前已经到“可用状态”,但整体性能和海外高端产品仍有差距。不过,美国限制反而推动国内大模型公司和硬件厂商加快适配,未来效率会越来越高。优刻得方面也提到,客户对国产算力的明确需求,更多体现在希望国产算力与模型加速适配。英伟达已经形成自成体系的生态,国产算力如果要真正起来,不能只靠单卡参数,而要形成模型、框架、工具链和应用端的生态闭环。

这也意味着,国产算力降本不是简单替代英伟达,而是模型和硬件共同适配后的系统优化。

从这个角度看,AI 基础设施的瓶颈总是在移动。

算力瓶颈的持续移动

季昕华在回答“运力”问题时,给了一个很好的解释:Token 生产是由很多组件共同完成的。最开始可能觉得 GPU 不够,于是先提升 GPU;GPU 提升后,发现内存成为瓶颈;内存做大后,又发现卡与卡之间的网络连接成为瓶颈,于是光通信、互联技术开始重要;网络解决后,CPU 调度又跟不上;再往后,不同机器之间、不同机房之间的连接又会成为新挑战。

所以整个系统的工作,就是不断找到瓶颈点、突破瓶颈点,然后迎接下一个瓶颈点。主要矛盾解决之后,次要矛盾就会变成新的主要矛盾。

这其实是 AI 基础设施行业最真实的一面:它不是单点技术革命,而是连续的系统调优。

比如跨数据中心推理。季昕华提到,一些算法正在尝试不在同一个数据中心也能实现跨数据中心推理调度。这样可以把分散算力用起来,但新的瓶颈会变成不同机房之间的带宽和网络延迟。训练目前还不太适合这样做,但推理有机会。

又比如分布式推理。目前最大的瓶颈不在时延,而在算力资源不足。生图几秒返回、生视频几十秒返回,大多数用户可以接受。反而如果把算力分散到各地,可能导致资源浪费:某个城市节点只有 70% 或 80% 使用率,空闲资源却无法被其他地方共享。

所以当前主流仍然是集中式。未来更可能在边缘侧做缓存,有点像 CDN,通过“以存代算”减少重复计算。例如多个用户询问同一个天气问题,答案相同,就不必每次重新推理,可以直接从本地缓存返回。但这套模式还没有完全收敛。

这说明,AI 推理并不会简单复制互联网时代的边缘计算路径。它既要考虑时延,也要考虑算力利用率。当前算力仍然稀缺,把资源集中起来,往往比过早分散更经济。

做中立的 Token 供应商

优刻得在这里找到的定位,是做一个中立的算力和模型服务平台。

季昕华说,优刻得今天已经不只是传统意义上的云计算公司,而是扩展成一家数字化公司,云、大数据和算力是技术手段。面对 AI 时代,其目标是发挥中立性质,帮助大家更好地用好 AI,也帮助 AI 公司更好地实现发展。

中立性过去是优刻得面向游戏、电商等行业客户的标签。游戏公司可能不愿意用腾讯云,电商公司可能顾虑阿里云,因为它们与平台本身存在业务竞争。到了 AI 时代,这种中立性被重新放大。

阿里有通义千问,腾讯有混元,字节有豆包,对创业型大模型公司来说,选择一家相对中立的第三方云厂商,可能更容易获得资源支持,也能减少潜在竞争顾虑。

季昕华还提到,优刻得在 Token 层面也可以保持中立,可以接入多个 Token 来源,为客户选择合适的 Token。

从客户结构看,优刻得面向的算力需求主要来自几类:第一类是基础模型公司,比如智谱、MiniMax、DeepSeek 等,需要大量卡做训练和推理;第二类是行业模型公司,比如金融、证券等有自己数据的公司,需要在基础模型上训练行业模型;第三类是手机、汽车等智能终端;第四类是各种应用场景;第五类是科学计算。

这些客户未必都有能力自建大规模数据中心,也未必都能从巨头那里获得足够细致的资源和技术支持。优刻得的差异化在于,不只是提供机柜,也不只是卖云主机,而是试图提供从数据中心、高功率机柜、GPU 算力、模型部署、Token 计费到企业 AI 使用治理的一揽子能力。

这条路并不轻松。

AI 基础设施本质上仍然是重资产。数据中心建设需要土地、楼宇、机电、UPS、柴发、制冷、液冷和高功率机柜;GPU 和 AI 服务器价格仍在波动;客户希望成本下降,但上游设备并不便宜。现场交流中提到,硬件价格上涨很快,但终端客户拿到的算力租赁价格并没有同步上涨,中间压力需要云厂商和算力服务商消化。

同时,数据中心标准也需要调整。季昕华提到,现有数据中心标准已经落后于 AI 行业发展。现在很多高等级标准要求双路供电、两路 UPS、两路柴发等冗余设计,但并不是所有 AI 产品都需要这么高标准。未来不同业务可能需要更精细化的数据中心标准,而不是所有负载都按最高标准建设。

这也意味着,AI 基础设施的降本不只是“压价格”,还包括重新定义什么业务需要什么等级的基础设施。

比如训练任务对稳定性要求极高,但部分推理任务可能对冗余要求没那么高;金融和汽车等敏感业务适合放在青浦等靠近客户的区域,普通推理和训练任务则可以放在乌兰察布这种电力成本更优的区域。任务分层、资源分层、模型分层,都会成为未来 Token 降本的一部分。

因此,Token 价格战背后的真实战场,已经从模型 API 页面,转移到了电力、数据中心和算力系统深处。

当企业真正开始把 AI 放进代码、营销、财务、HR、会议纪要、智能硬件和行业模型,Token 就不再是技术圈里的抽象单位,而会变成企业账本上的真实支出。

而谁能把一度电更高比例地转成有效算力,把一张 GPU 跑出更多有效 Token,把不同模型组合成更低成本的工作流,把员工的 AI 使用变成可衡量的业务产出,谁才有机会在下一轮 AI 基础设施竞争中留下来。

Token 便宜的尽头,不只是模型降价。

是电力,是算力,是工程能力,也是企业重新学会怎么用 AI。

市场机遇
Gensyn 图标
Gensyn实时价格 (AI)
$0.0341
$0.0341$0.0341
+40.56%
USD
Gensyn (AI) 实时价格图表

世界杯预测,一单串多场,搏200倍收益!

世界杯预测,一单串多场,搏200倍收益!世界杯预测,一单串多场,搏200倍收益!

MEXC App 6.60.0 全新升级,巴西/法国/阿根廷等最多20场组合,一键轻松下注!

免责声明: 本网站转载的文章均来源于公开平台,仅供参考。这些文章不代表 MEXC 的观点或意见。所有版权归原作者所有。如果您认为任何转载文章侵犯了第三方权利,请联系 crypto.news@mexc.com 以便将其删除。MEXC 不对转载文章的及时性、准确性或完整性作出任何陈述或保证,并且不对基于此类内容所采取的任何行动或决定承担责任。转载材料仅供参考,不构成任何商业、金融、法律和/或税务决策的建议、认可或依据。