利好AI芯片开发和AIGC应用,《开放加速规范AI服务器设计指南》深度解读

   日期:2024-12-29     作者:8u5y2       评论:0    移动:http://mip.riyuangf.com/mobile/news/14284.html
核心提示:芯东西8月11日报道,昨天,在第五届OCP China Day(开放计算中国技术峰会)上,面向AIGC产业的《开放加速规范AI服务器设计指南》

芯东西8月11日报道,昨天,在第五届OCP China Day(开放计算中国技术峰会)上,面向AIGC产业的《开放加速规范AI服务器设计指南》(下文简称《指南》)正式发布。

利好AI芯片开发和AIGC应用,《开放加速规范AI服务器设计指南》深度解读

这一《指南》为开放加速规范服务器提出了四大设计原则以及全栈设计方法,包括硬件设计参考管理接口规范性能测试标准,能帮AI芯片企业显著缩短OAM加速芯片研发和系统适配周期,大幅节省研发投入。

AIGC时代到来,动辄上百亿、上千亿参数规模的大模型使得算力缺口问题被放大,需要处理大量大模型训练任务的AI服务器受关注度也水涨船高。

然而事实是,AI芯片的多元化发展为大模型寻找创新应用提供了机遇,但走向落地,当采用不同技术路线的AI芯片集成到AI计算系统时,企业通常需要投入大量时间、资金来使其AI加速芯片与系统实现高性能的适配,这背后消耗的成本无法估量。

诚然,开放加速计算(OAI)自诞生起就锚定了AI计算基础设施的标准化,但此前界定宽泛、覆盖面广的标准无法真正成体系应用到产业中。因此,这一产业需要的是一个行之有效、落地有声的细化指南。

在OCP China Day期间,芯东西与浪潮信息AI&HPC产品线高级产品经理张政进行了深入交流,找到这则《指南》在AIGC时代下扮演的真实角色。

近日,关于GPU短缺、GPT-5可能需要3-5万张H100 GPU的讨论在社交媒体疯传,AIGC时代的算力已成“兵家必争之地”,再加上其商业化落地、产业化应用提速,AI计算能力这块基石的重要性与日俱增。

因此,为了补上AI算力的缺口,AI芯片公司相继推出各类非标准PCIe CEM的新型态AI加速芯片,越来越多创新技术路径出现,使得AI计算芯片逐渐多元化。随之而来的一大问题就是,不同技术形态的AI加速芯片无法进行标准化快速适配,产业上下游生态面临割裂风险

解决这一风险的答案可以追溯至2019年,彼时,OCP OAI(Open Accelerator Infrastructure)小组成立,这一小组的研发初衷与当下蓬勃发展的多元算力芯片相对应,并且其关注的为超大规模深度学习训练的AI加速芯片进行形态定义、促进生态建立,在展示开放计算可行性的同时,为规避AI计算芯片多元化趋势背后的风险提供了有效解法。

不同厂商的AI加速芯片在结构、电气特性上存在显著差异,导致不同芯片需要定制化系统硬件平台,OAI小组对AI加速芯片形态进行了定义,通过统一接口、AI加速芯片基板OAI-UBB设计规范、推出基于OAI-UBB1.0规范的开放加速硬件平台,一步步构筑起开放加速计算的生态体系,从而在AIGC时代算力需求狂飙的当下,能为企业提供可匹配其应用场景的AI算力产品方案。

OAI主要通过全球产业链协作的模式,实现产品、规范等共享的同时,推动基础设施创新,在缓解算力供应短缺的同时,进一步加速AIGC时代的技术落地。

参与其中的浪潮信息,在协同合作伙伴完成早期技术验证和经验积累的同时,也发现AI芯片落地过程中还存在众多难以跨越的鸿沟。

因此,浪潮信息基于此前的技术积累发布了这一《指南》,《指南》的最大价值在于,一方面能帮芯片企业快速开发新形态AI芯片,节省开发周期、开发成本,并加速产品的升级和迭代;另一方面,也能让最终客户在实际应用场景中更快享受到多元算力带来的价值。

正如浪潮信息服务器产品线总经理赵帅此前提到的,开放架构的出现就是让领先技术更快从一个行业下沉到千行百业

▲浪潮信息发布《开放加速规范AI服务器设计指南》

全面系统测试中,浪潮信息沿用了一部分AI服务器的测试用例,同时面向OAM服务器,他们将自己此前在创新实践中遇到的问题,一并进行了细化放入《指南》之中,从而增强新研发设备的稳定性和可靠性。

也就是说,要解决在AI系统生产、部署、运行过程中,异构加速计算节点的高故障率的问题,想要保证系统的稳定性,其对应的测试条件及环节要更为严苛。基于此,《指南》对结构、散热、压力、稳定性、软件兼容性等方面的测试要点进行了全面的梳理,以满足AI计算系统部署的要求。

应用层面,AIGC领域加速计算系统软硬件具备强耦合性,对系统的性能要求更高。浪潮信息将此前在全球权威AI基准评测MLPerf等测试中的问鼎冠军的实战测试优化经验,也呈现在了《指南》中。

例如模型性能测试中,《指南》具体指明了基于ResNet、Bert、Yolo等AI主流模型单机开展测试时推理、训练评测重点关注的性能指标,以及多机环境中重点评测的指标。

这样一来,AI芯片创企既能拥有成熟的系统平台,规避闭源生态风险,还能在这份说明书的基础上,缩短芯片开发落地适配的进程。

此外,《指南》里的四大设计原则之首就是应用导向,技术落地效果如何与应用成果密不可分,也是评判这一指南的重要因素之一。

目前有燧原科技、英特尔、浪潮信息等10余家OAI小组成员已经陆续开发了10余种符合开放加速规范的产品组合方案并已实现落地应用,越来越多的芯片、算力系统企业已经聚集在这个开放加速的生态之中。

其中,云端AI算力企业燧原科技打造了国内第一个OAM模组,是该公司2019年发布的云燧T11 PoC,2021年发布云燧T21训练OAM模组,这些基于开放加速计算标准构建的高性能人工智能训练加速模组,能在性能、部署、覆盖、运维方面具有较大优势。

随后,去年3月,浪潮信息与其联手打造“钱塘江”智算中心方案,智算中心能支撑超千亿参数规模模型的高效、并行训练。目前,这一方案已在某大型实验室落地1280卡规模的全液冷AI训练集群。

除此以外,还有壁仞科技发布了符合OCP标准的OAM模组壁仞100、英特尔联合浪潮信息推出新一代AI服务器NF5698G7,集成8颗OAM高速互联的Gaudi 2加速器……

无一例外,这些产品已成为开放加速计算产业展现可行性、可用性的有效见证者

当下,诸多应用成果、符合OAM标准的设备出现,都展示了开放加速计算技术的可行性,并以此辐射出完整的生态体系。

AI加速计算系统的规范体系正在逐步确立、完善,面向AIGC领域的设计指南也更加全面、细化,为AIGC浪潮下算力供需难题提供了有效的解决方案。

下一步AIGC时代会迸发出什么样的创新应用,通往通用人工智能时代还会出现哪些门槛我们尚且无从得知,但可以确定的是,开放加速计算技术有望成为这些玩家去突破AIGC时代算力瓶颈的一条有效路径

因此走向实际应用的过程中,AIGC应用亟需一套完整的开放加速计算设计指南,以此为桥梁,使得多元算力之道成为破解大模型训练算力难题的有效解法。

AIGC的发展需要大量的计算资源,因此对算力的需求将会迎来系统级变化。当下,其规模化应用的步伐已经加快,因此,如何低成本补上算力缺口成为难题。开放计算这一新技术的落地与技术路线,都说明了其与AIGC时代这一难题的适配性。

作为开放加速计算的重要参与者,浪潮信息正铆足全力保障AIGC时代的多元算力供应,这背后有两重身份支撑,首先它是国内率先布局开放加速计算的玩家,同时它也是国内AI服务器龙头企业,在产品落地应用中积累了众多有效经验。

张政谈道,面向AIGC领域的规划,短期内,浪潮信息将继续在软硬件布局,硬件中继续为合作伙伴提供先进且强大的开放加速硬件平台,软件、算法层面将基于资源管理平台实现对多元算力的高效管理和调度,目前,这一管理平台已经可以适配业内30多种算力芯片。

长期来看,浪潮信息将继续围绕大模型、智算中心、AI算力服务等场景的多元算力产业化应用实践进一步探索。

 
特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

举报收藏 0打赏 0评论 0
 
更多>同类最新资讯
0相关评论

相关文章
最新文章
推荐文章
推荐图文
最新资讯
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号