OCP全球峰会算力电力协同扩展 笔记
算力与电力的耦合。跟着功能瓶颈从单一核算单元转向互联结构,越来越巨大的超节点与集群,正在重塑电力转化为算力的途径。算力与电力的协同扩展,正在成为
为了让AI以更高功率、更低本钱运转,全球科学技能巨子在日前举办的OCP(敞开核算项目)全球峰会上,纷繁提交各自的架构蓝图,企图在算力与电力的协同规划规范中,占有更多话语权,以“引领AI未来”。
AI基础设备正从芯片之争,转向机架级体系架构的比赛。英伟达推出了Kyber机架,代替根据Blackwell架构的Oberon机架,可集成多达576个Rubin Ultra GPU。AMD推出了根据下一代MI450系列的Helios机架,已发表版别搭载72块GPU;它选用了Meta提出的ORW(敞开机架宽体)规范。
扩展,成为了本届大会的中心议题。在英伟达看来,AI的演化是一场继续的扩展,从GPU晋级到AI基础设备,它需求纵向、横向以及跨域的扩展;在博通眼里,AI构筑于以太网之上,唯有它才是支撑这三大扩展的最优解;AMD则以为,职业的每一次重大打破,都来自于敞开,AI也是如此。
所以,这次峰会诞生了ESUN。它是根据以太网(Ethernet)的纵向扩展(Scale-Up)网络(Networking)项目。第一批成员可谓奢华,包含AMD、Arista、ARM、博通、思科、慧与、Marvell、Meta、微软、英伟达、OpenAI和甲骨文。不管英伟达与AMD终究投入多少资源,这一建议自身,已构成业界稀有的一致。
ESUN不是在现有的以太网上加了一层,而是涉及到物理层(PHY)、数据链路(Data Link)与帧头(Header)。对OpenAI来说,这正符合它的战略节奏。奥特曼正在串联起软硬件协同的生态,现已自己组了一个算力的局,也需求参加网络的圈子;它与博通的协作,本来就期望加强在网络、机架与互联上的协同。可以说,美国的AI基础设备一致,正在由此成型。
在这次峰会上,Meta就提出,算力硬件的多元化不可防止。一方面,是为了尽最大或许防止依靠单一厂商,确保供应链耐性;另一方面,则是为了负载适配,针对不同AI使命挑选“功能最优硬件”。而要充沛复用这些异构资源,就必须尽或许削减硬件碎片化,下降软件层的适配杂乱度,树立更一致的互操作规范。
当时,纵向扩展已成为当时平衡AI作业负载的要害途径。跟着稀少架构中专家(Expert)数量与通讯需求不断攀升,芯片和节点规划同步扩展。为了打破铜缆物理约束,把更多GPU归入同一个低推迟域,机架级核算应运而生。稀少模型的专家规划正在快速胀大,从最早的Mixtral的8个,到DeepSeek-V3的256个,再到Kimi-K2的384个,乃至Qwen3-Next的512个。阿里云与华为等也在逐渐扩展它们的节点的纵向扩展规划。
在此之前,环绕纵向扩展,各大厂商一向各行其道。英伟达有自己的NVLink与NVSwitch,简直彻底关闭,只是在本年经过NVLink Fusion的方式,向AI国际工厂“适度敞开”,答应客户将自己的CPU与英伟达的GPU一同运用,或将英伟达的GPU与其他定制AI芯片一同运用。三星,以及英伟达刚花了50亿美元入股的英特尔,现已参加这一生态。但这个生态依然稍显狭隘,无法应对更杂乱的AI定制芯片之间互联的未来。
AMD本来带头立异了UAlink联盟,这次也参加了ESUN。UALink作为NVLink的敞开代替计划,现在成为ESUN的扩展协议。彻底根据UALink的应战在于,占有最大GPU商场的英伟达不在其间,占有最大XPU商场的博通也被传言有意退出。
博通无疑是这次ESUN的最大赢家之一。它一向企图让以太网一起承担起纵向扩展 与横向扩展 的两层使命。作为网络事务的“根本盘”厂商,博通在英伟达主导AI芯片叙过后,一度失去了界说未来网络的主导权。
本年年中,博通推出了SUE(纵向扩展以太网)架构。三季度,又敏捷晋级了网络沟通芯片Tomahawk,从量产的Tomahawk 5衍生出Tomahawk 6与Tomahawk Ultra,前者主打横向扩展功能的提高,后者则是专为纵向扩展优化。它们意在应战英伟达的InfiniBand与NVLink架构。在这次的OCP峰会上,博通还发布了Thor Ultra 800G的网卡芯片,稳固在横向扩展范畴的位置。
可是,算力的结尾是电力。益发巨大的纵向扩展,也正让电力瓶颈勒得越来越紧。这不只关乎外部能否供给满意的发电规划,更在于AI使命自身的功率动摇性与高密度能耗需求,正在重塑数据中心内部的电力规划逻辑。
传统的54V机架电源体系,在高功率密度不断攀升的场景下,已暴露出电阻损耗高、铜缆用量激增等短板,难以满意AI年代的新需求。并且,传统现行架构需经过多级电能改换,将电网送来的中压沟通电先降至低压沟通,再由UPS调理并经过PDU与母线槽分配到机架内,历经屡次转化,终究送到各核算节点。
微软、谷歌与Meta一起打造的Mt. Diablo配电架构,专为应对现代AI硬件的极点功率需求而规划。它选用±400VDC配电计划,可支撑1MW级机架功率,显着提高了供电功率与体系紧凑性。它还免去了剩余的沟通-直流转化,以及变压器等很多调理设备,节省了整套体系的空间占用,下降了体系杂乱度与运维本钱。
未来,这套体系还将进一步引进固态变压器(SST),进一步完结供电链路的精简化。它专为高功率密度的AI数据中心而规划,可以在更高功率下灵敏接入电网与储能体系,并在负载剧烈动摇时保持电网安稳。除原有的Mt. Diablo成员外,英伟达也参加了进来。各方期望可以经过联合立异,下降全体基础设备本钱,并凭借供应链复用,将该技能推广至更广泛的职业场景。
英伟达下一代Kyber机架,则选用了800VDC高压直流配电计划。其生态同伴包含旗下的AI新式云CoreWeave、Nebius等公司。黄仁勋早已为自己的算力电力协同生态,撮合了一供应链上下游企业。本年,在COMPUTEX上,他宣告建立800V高压直流(HVDC)供电供货商联盟。
英伟达的愿景是,未来将在设备级层面会集完结一切沟通至直流的能量转化,构建本地直流数据中心,完结从电力到算力的端到端一体化。在OCP大会同期发布的800VDC白皮书中,英伟达相同说到未来将引进固态变压器(SST)。
算力与电力协同的下一代AI基础设备,或许将成为“AI泡沫”留下的最好技能遗产。
甲骨文:与OCI共建泽级(Zettascale)AI集群:携手敞开生态,共创下一代AI


