AI算力怎么继续涨？靠给芯片修“数据高铁”和“超节点”

一句话说清楚：AI算力正在从“拼单卡”变成“拼系统”

以前大家比谁的芯片更强，但现在芯片快做到物理极限了。怎么办？靠两招：一是把几十上百颗芯片用超快的方式连成“超级节点”（超节点），减少等待浪费时间；二是用光来传数据（光互连），比电更快、更省电。这意味着以后你用的AI服务会更便宜、更流畅，因为大模型训练和推理的“单次成本”在直线下降。

超节点：把一堆GPU变成“一个人”

单颗芯片的速度已经很难再翻了。GPT-5级别的模型训练，有三分之一的时间都在等数据从别的芯片传过来——等于你买100张卡，有30张卡的时间在发呆。

超节点就是通过高速互联技术，把几十甚至上百颗GPU变成一个整体，让数据在内部跑，不用绕远路。华为展出的Atlas 950 SuperPoD，单柜起步64卡，最多能连8192张NPU卡，专门给万亿参数的大模型用。中兴联合多家国产芯片厂商也做了类似的“Matrix超节点”，提倡“多芯协同”，你想用什么芯片就组合什么芯片，成本更低。

光互连：给算力修“数据高铁”

电子传数据有两大难题：发热和带宽上限。光子不一样，跑得快、不发热、不耗电。光互连就像给算力集群修了一条数据高铁，光计算则直接拿光子做运算，绕过电子电路的极限。行业普遍认为，在超节点这种大规模集群里，光技术不是可选项，而是必选项。国产厂商曦智科技已经在香港上市，被称为“全球AI硅光芯片第一股”。

软件生态：让不同芯片说同一种语言

现在全球上百家AI芯片厂商，每家都有自己的编程模型和通信协议。换个芯片，软件就得重编重优化，成本极高。今年WAIC上，由图灵奖得主领衔的论坛推出了一个叫FlagOS的统一智算底座，相当于给所有芯片做一个通用的“操作系统”，让不同架构的芯片跑同一套软件。另外，存储也是个被忽视的短板——GPU常常因为等数据而空闲。西部数据等公司展示了高性能数据平台，能把GPU利用率提升40%以上。

工程落地：单次成本从130万降到35万

技术再好，用不起也不行。通过跨集群调度、液冷散热、智能网络优化，单Token（可以理解成一次AI计算的最小单位）的成本已经大幅下降。比如无问芯穹的“Token超级工厂”，在万亿参数级模型上，推理成本比传统方式降低10倍；液冷机柜让数据中心省电40%以上；新华三的智算交换机通过降低网络延迟，使训练性能提升30%。

一句话总结

AI算力正在从“堆卡时代”进入“系统时代”。单芯片接近极限，但通过超节点、光互连、统一软件和工程优化，算力还能继续涨，而且越来越便宜。