日前,总部位于北京的国产GPU企业摩尔线程宣布其AI旗舰产品夸娥智算集群解决方案实现重大升级,从当前的千卡级别大幅扩展至万卡规模。
AI模型训练的主战场,万卡已成为标配。摩尔线程创始人兼CEO张建中说。随着计算量不断攀升,大模型训练亟需超级工厂,也就是一个大且通用的加速计算平台,从而缩短训练时间,实现模型能力的快速迭代。
所谓万卡集群,是指由一万张及以上的计算加速卡组成的高性能计算系统,用以训练基础大模型。据了解,构建万卡集群并非一万张GPU卡的简单堆叠,而是一项高度复杂的超级系统工程。可以把万卡集群想象为一个万人团队,团队需要有非常强的沟通机制,才能协同把一件事情做好。摩尔线程相关负责人说,希望能够建设一个规模超万卡、场景够通用、生态兼容好的加速计算平台,并优先解决大模型训练的难题。
稳定性方面,夸娥万卡集群平均无故障运行时间超过15天,最长可实现大模型稳定训练30天以上,周均训练有效率在99%以上。
日前,总部位于北京的国产GPU企业摩尔线程宣布其AI旗舰产品夸娥智算集群解决方案实现重大升级,从当前的千卡级别大幅扩展至万卡规模。
AI模型训练的主战场,万卡已成为标配。摩尔线程创始人兼CEO张建中说。随着计算量不断攀升,大模型训练亟需超级工厂,也就是一个大且通用的加速计算平台,从而缩短训练时间,实现模型能力的快速迭代。
所谓万卡集群,是指由一万张及以上的计算加速卡组成的高性能计算系统,用以训练基础大模型。据了解,构建万卡集群并非一万张GPU卡的简单堆叠,而是一项高度复杂的超级系统工程。可以把万卡集群想象为一个万人团队,团队需要有非常强的沟通机制,才能协同把一件事情做好。摩尔线程相关负责人说,希望能够建设一个规模超万卡、场景够通用、生态兼容好的加速计算平台,并优先解决大模型训练的难题。
稳定性方面,夸娥万卡集群平均无故障运行时间超过15天,最长可实现大模型稳定训练30天以上,周均训练有效率在99%以上。
声明:本网转发此文,旨在为读者提供更多资讯信息,所渉内容不构成投资、建议消费。文章内容如有疑问,请与有关方核实,文章观点非本网站观点,仅供读者参考。
免费开放车位、增设充电桩……让小长假驾车出行更顺
4月4日,清明假期正式开始,每到这个时候,无论是去祭祀还是旅行,...
中国安徽名优农产品暨农业产业化交易会2024·上
中国安徽名优农产品暨农业产业化交易会2024·上海乡村产业发展暨...
前两月我国服务贸易快速增长
:商务部公布的数据显示,2024年1mdash;2月,我国服务进...
了不起的老城丨以花为“媒”——老街区焕发文旅新活
海报制作:方金洋温暖春日,天津市和平区五大道风景区的海棠明媚绽放...
星空有约|今年全球唯一一次日全食即将在北美洲上演
今年备受瞩目的天象来了!全球唯一一次日全食将于北京时间4月9日凌...
“人造太阳”是什么?揭开它的神秘面纱
“人造太阳”是什么?为什么要建造“人造太阳”?近日,记者来到中核...