布式光交流一种根据分的高带宽域架构Inf

曦智。种根科技 。据分架构联合北京大学  、布式阶跃星斗为下一代万亿参数大模型练习的光交高带基础设施建造提出全新解决计划。

跟着大模型参数规划的宽域扩展,分布式练习成为 。种根人工智能 。据分架构展开的布式中心途径 。分布式练习能够将模型数据分配给多个核算节点  ,光交高带进行并行核算和数据管理,宽域然后明显加快模型练习的种根进程 ,而高带宽域(High Bandwidht Domain,据分架构 HBD)的规划对提高模型算力利用率至关重要 。

但是布式,现有的光交高带HBD架构在可扩展性、本钱和容错才能等方面存在根本性约束 :

以。宽域交流机。为 。中心。的HBD(如NVIDIA NVL72)本钱昂扬、不易扩展规划 。

以以。AI。加快器(包含 。GPU  。与专用。ASIC。)为中心的HBD(如Google TPUv3和。Te 。sla Dojo)存在严峻的毛病传达问题。

2022 年Google发布TPU v4 集群,初次选用光交流计划(Op  。ti 。cal Circuit Switch,以下简称“OCS”) ,这种交流机-GPU混合的HBD在互连本钱与体系扩展性之间采取了折中计划 ,但仍存在毛病爆破半径问题,其本钱和容错才能仍不甚抱负 。

70f2da02-41b9-11f0-b715-92fbcf53809c.jpg

在此布景下 ,曦智科技联手北京大学、阶跃星斗的研讨团队提出了一种以光交流(OCS)模组为中心的高带宽域架构InfiniteHBD,经过在 。光电 。转化模组中集成OCS才能 ,InfiniteHBD完成了动态可重构的单点对多点衔接 ,具有节点级毛病阻隔和低资源碎片化的才能 。

InfiniteHBD在可扩展性和本钱上全面优于现有计划 :InfiniteHBD的单位本钱仅为NVL72的31% ,GPU冗余率比NVL72和TPUv4低一个数量级,且与NVIDIA DGX(单机8卡)比较,模型算力利用率最高提高3.37 倍。

该计划以论文方式被国际 。通讯网络。范畴尖端会议SIGCOMM 2025[1]接纳 。

曦智科技在集成硅光范畴具有十余年的工业经历,在InfiniteHBD 计划中,立异性的开发了根据硅光子技能的分布式光交流dOCS(distributed Optical Circuit Switch),将根据马赫曾德(MZI ,Mach-Zehnder Interfe 。rom 。eter)交流矩阵的光交流芯片集成到商用Q 。SFP。-DD 800Gbps光电转化模组中 ,大幅简化了器材结构的一起 ,有用提高了器材集成度,然后降低了本钱和功耗,明显提高了InfiniteHBD 的性价比和体系可扩展性。

715fa696-41b9-11f0-b715-92fbcf53809c.png

分布式光交流计划关于建造超大规划练习集群具有以下收益 :

dOCS自带光电转化,供给交流才能的一起可构成跨机超节点;

光交流芯片选用老练制程,降低了关于先进制程电交流芯片的依靠;

光交流芯片对协议不灵敏,适用于当时GPU衔接协议碎片化的现状。

InfiniteHBD为高带宽域架构的高效扩展供给了新的解决计划,为下一代万亿参数大模型练习的基础设施建造带来了重要启示。 注释: [1]SIGCOMM ,Special Interest Group on Data Communication,即数据 。通讯。专业组 ,是。AC。M(美国核算机协会)安排在通讯网络范畴的旗舰会议 。本年的SIGCOMM 将于9 月8日-11日在葡萄牙科英布拉举办 。

关于曦智科技 。

曦智科技是全球抢先的光电混合算力供给商。公司凭仗在集成光子范畴的开创性技能和全球顶尖的。集成电路 。技能研制团队 ,致力于在核算需求迸发的年代 ,为客户供给一系列算力跃迁解决计划,与客户共建更 。智能。、更可继续的国际 。曦智科技从光子矩阵核算(oMAC)、片上光网络(oNOC)和片间光网络(oNET)三大中心技能动身,打造光子核算和光子网络两大产品线,与大数据 、 。云核算 。 、金融 、 。自动驾驶 。、生物医药、资料研讨等范畴客户展开严密协作,继续为客户供给更具创造性的高效算力支撑。

原创文章,荣千,如若转载,请注明出处:https://15c.xyethdzxyey.org.cn/html/8c9899893.html