6616AI

AI算力怎么继续涨?靠给芯片修“数据高铁”和“超节点”

2026-07-04

一句话说清楚:AI算力正在从“拼单卡”变成“拼系统”

以前大家比谁的芯片更强,但现在芯片快做到物理极限了。怎么办?靠两招:一是把几十上百颗芯片用超快的方式连成“超级节点”(超节点),减少等待浪费时间;二是用光来传数据(光互连),比电更快、更省电。这意味着以后你用的AI服务会更便宜、更流畅,因为大模型训练和推理的“单次成本”在直线下降。

超节点:把一堆GPU变成“一个人”

单颗芯片的速度已经很难再翻了。GPT-5级别的模型训练,有三分之一的时间都在等数据从别的芯片传过来——等于你买100张卡,有30张卡的时间在发呆。

超节点就是通过高速互联技术,把几十甚至上百颗GPU变成一个整体,让数据在内部跑,不用绕远路。华为展出的Atlas 950 SuperPoD,单柜起步64卡,最多能连8192张NPU卡,专门给万亿参数的大模型用。中兴联合多家国产芯片厂商也做了类似的“Matrix超节点”,提倡“多芯协同”,你想用什么芯片就组合什么芯片,成本更低。

光互连:给算力修“数据高铁”

电子传数据有两大难题:发热和带宽上限。光子不一样,跑得快、不发热、不耗电。光互连就像给算力集群修了一条数据高铁,光计算则直接拿光子做运算,绕过电子电路的极限。行业普遍认为,在超节点这种大规模集群里,光技术不是可选项,而是必选项。国产厂商曦智科技已经在香港上市,被称为“全球AI硅光芯片第一股”。

软件生态:让不同芯片说同一种语言

现在全球上百家AI芯片厂商,每家都有自己的编程模型和通信协议。换个芯片,软件就得重编重优化,成本极高。今年WAIC上,由图灵奖得主领衔的论坛推出了一个叫FlagOS的统一智算底座,相当于给所有芯片做一个通用的“操作系统”,让不同架构的芯片跑同一套软件。另外,存储也是个被忽视的短板——GPU常常因为等数据而空闲。西部数据等公司展示了高性能数据平台,能把GPU利用率提升40%以上。

工程落地:单次成本从130万降到35万

技术再好,用不起也不行。通过跨集群调度、液冷散热、智能网络优化,单Token(可以理解成一次AI计算的最小单位)的成本已经大幅下降。比如无问芯穹的“Token超级工厂”,在万亿参数级模型上,推理成本比传统方式降低10倍;液冷机柜让数据中心省电40%以上;新华三的智算交换机通过降低网络延迟,使训练性能提升30%。

一句话总结

AI算力正在从“堆卡时代”进入“系统时代”。单芯片接近极限,但通过超节点、光互连、统一软件和工程优化,算力还能继续涨,而且越来越便宜。