今天(19日),上海东谈主工智能试验室发布DeepLink超大范畴跨域混训时期有缱绻开云「中国」Kaiyun官网登录入口,并已完成多个情景落地,维持千公里多智算中心跨域长稳混训千亿参数大模子。
本年2月,上海AI试验室勾通十余家合作伙伴,在上海建成了超大范畴跨域混训集群原型,并完了千亿参数大模子20天不终止磨砺。在此基础上,上海AI试验室和会中国联通AINET时期,逾越1500公里连络了上海和济南之间的智算中心,完成千亿参数大模子混训,等效算力达单芯片单集群算力的95%以上;与中国电信息壤算网合作,完了了北京、上海与贵州等多地智算中心的互联和大模子混训。
为高天真、低资本获得大算力提供新路线
跟着国内AI酌量及产业诓骗日益长远,算力需求合手续增长,天下智算中心大范畴营建,但存在缔造永别、采购芯片代次相反大、算力资源碎屑化等问题,难以天真、低资土产货获得大算力。
上海AI试验室攻克了大范畴跨域异构集群调度、高性能通讯条约整合、高可靠容错机制想象等时期繁难,有用应付硬件算力繁芜不皆、通讯同步不安逸、故障容错难等挑战,推出DeepLink超大范畴跨域混训时期有缱绻,以保险跨域智算集群的大模子长稳磨砺。

DeepLink超大范畴跨域混训时期有缱绻
破解后果低、不安逸、难协同三浩劫题
智算芯片行业百花皆放,但不同芯片的软件栈及性能存在相反,异构互联通讯后果低下,导致适配纳管难度大、混训后果不高。且大范畴远距离跨域混训需要搞定集合带宽、通讯蔓延、磨砺安逸性等问题。
针对远距离跨域混训存在的数据同步和安逸性问题,这一时期有缱绻立异性地摄取“3D并行+PS”架构,将超大范畴任务分发到各个智算中心,通过算法换通讯的情景减少全局同步复杂度和通讯支拨,有用松开了集合职守,为数据传输提供了更宽松的时间窗口,无为专线即可显示通讯带宽的条目;还确保在外乡磨砺中即使某个智算中心的节点发生故障也不影响举座磨砺,举座进步磨砺安逸性。

3D并行+PS架构
针对芯片种类繁华,不同硬件显存容量和通讯带宽繁芜不皆导致的异构混训后果低下繁难,本有缱绻同期暴虐调动的异构活水线并行计策,并摄取自研散布式并行框架动态调遣不同硬件的任务量,以更细粒度的拆分情景搞定了异构芯片相反性带来的负载平衡和计较防止问题。勾通团队基于现存通讯条约构建适配层,得手打破了异构芯片互联后果低下的瓶颈。
联袂崎岖游,助力AI生态繁荣
AI生态昌盛发展,离不开算力资源高效周转。行动国外级东谈主工智能新式科研机构,上海AI试验室选用有组织的科研范式,发达原创算法及AI软硬件深度互联时期上风,在天下算力互联互通探索中抢先布局、束缚打破。
DeepLink有缱绻不仅考证了跨域混训的实用价值,也为行业提供了全新启示。在计较资源有限的场景下,行业依旧不错完了不同性能芯片的天真组合,无需依赖高算力芯片“扎堆”式部署,有用裁减对特定硬件的旅途依赖;不同算力集群可通过互联组合变成“协力”,打破单集群性能上限;跨厂商资源更好地兼容与合作,为算力生态的多元繁荣奠定基础。

DeepLink超大范畴跨域混训时期快速集成有缱绻
新民晚报记者了解到开云「中国」Kaiyun官网登录入口,当今,上海AI试验室DeepLink通达计较体系已深度集成至联通、电信、商汤、仪电等智算平台,完了“1个平台+N种芯片+X个地域”安逸启动。