【蚂蚁集团开源万亿参数模型权重交换框架Awex 实现数千卡集群秒级同步】
1、蚂蚁集团11月20日宣布开源其自主研发的高性能权重交换框架Awex。该框架是其万亿参数强化学习模型的核心技术支撑,能够实现在数千卡GPU集群...
【蚂蚁集团开源万亿参数模型权重交换框架Awex 实现数千卡集群秒级同步】
1、蚂蚁集团11月20日宣布开源其自主研发的高性能权重交换框架Awex。该框架是其万亿参数强化学习模型的核心技术支撑,能够实现在数千卡GPU集群上5-10秒内完成万亿参数级别的权重同步。
2、此次开源是蚂蚁集团继今年10月开源非思考模型Ling-1T和思考模型Ring-1T两款万亿参数旗舰模型后的又一重要举措。其中Ring-1T模型正是基于Awex框架构建,该框架的全称为"异步系统权重交换框架"。
3、Awex框架的开源将为业界提供处理超大规模模型训练的关键基础设施,显著提升分布式训练效率,助力解决大模型训练中的通信瓶颈问题。
编辑回复