(资料图)
微软研究人员推出了名为ZeRO++的新系统,用于优化训练大型AI模型,以应对高数据传输开销和有限带宽的难题。
ZeRO++ 建立在现有的 ZeRO 优化的基础上,并提供增强的通信策略,以提高训练效率,减少训练时间和成本。
像Turing-NLG、ChatGPT和GPT-4这样的大型模型的训练需要跨多个GPU设备占用大量内存和计算资源。DeepSpeed开发的ZeRO++引入了通信优化策略,以克服在每个GPU上批量大小较小时或在低带宽集群上进行训练时ZeRO的限制。
ZeRO优化系列包括ZeRO-Inference,它使用GPU的集体内存和计算能力,将模型状态分割在多个GPU之间。然而,在训练过程中,ZeRO可能会产生较高的通信开销。ZeRO++通过整合三组通信优化来解决这个问题:量化权重通信(qwZ)、分层权重分割(hpZ)和量化梯度通信(qgZ)。
为了减少参数通信量,ZeRO++对权重进行量化,利用基于块的量化方法来保持训练精度。这种优化的量化过程比基本量化更快更准确。为了在反向传播过程中尽量减少通信开销,ZeRO++通过在每台机器上保持完整的模型副本,以 GPU 内存换取通信。梯度通信方面,ZeRO++引入了一种新的量化梯度通信范式 qgZ,可以减少跨节点的流量和延迟。
这些通信优化大大减少了通信量。与ZeRO相比,ZeRO++实现了减少高达4倍的通信量,提高了训练吞吐量和效率。当在每个GPU上使用小批量大小时,在高带宽集群中,ZeRO++相比ZeRO-3的吞吐量提高了28%至36%。在低带宽集群中,与ZeRO-3相比,ZeRO++实现了平均2倍的加速,使得大模型训练在更多种类的集群上更为可行。
ZeRO++不仅限于训练场景,还可应用于对话模型中使用的人类反馈强化学习(RLHF)训练。通过将ZeRO++与DeepSpeed-Chat集成,RLHF训练可以获得更好的生成和训练吞吐量,生成吞吐量提高了高达2.25倍,训练吞吐量提高了1.26倍,超过了ZeRO。
DeepSpeed已经发布了ZeRO++,以使大型模型的训练在AI社区更加高效和可访问。该系统旨在加快训练速度,减少通信开销,并实现更大的批量大小,从而节省时间和资源。研究人员和实践者可以利用ZeRO++更有效地训练像ChatGPT这样的模型,并在AI领域探索新的可能性。
来源:站长之家
标签:
微软研究人员推出了名为ZeRO++的新系统,用于优化训练大型AI模型,以应
台州大学生暑假社会实践报名方式01、打开“浙里办”,搜索“青省心”。
北京日报客户端|记者张骜方非通讯员安格6月27日,“北京西城·首都高校
【环球时报-报道记者陈青青】在6月26日举行的外交部例行记者会上,有记
6月27日晚间,长白山(603099)发布公告称,长白山旅游股份有限公司于2
1、操作系统(英语;OperatingSystem,简称OS)是一管理电脑硬件与软件
6月27日,微博话题 杭州女子养仓鼠脸烂成火龙果 冲上热搜,引发网友关
新老品牌“角力”加剧烘焙行业或面临洗牌---门店全关、卖楼抵债,“烘
■居民自觉参与垃圾分类(资料图)。刘东华摄一个萝卜一个坑,不同垃圾
1、打开设置,进入声音与震动,找到电话铃声选项,可选择全部铃声、本
中国高尔夫媒体联盟成立十二周年庆典暨2023年理事会,日前在风景秀丽的
今天来聊聊要在垃圾桶里捡男朋友txt下载百度云,不要在垃圾桶里捡男朋
责任编辑:胡笑柯分享到:版权声明:凡注明来源“流媒体网”的文章,版
6月26日晚间,天娱数科(002354 SZ)公告,子公司天神互动对张伟文、印宏
21世纪经济报道记者彭硕北京报道万亿级新型储能赛道一片火热,市场“竞
近年来,内蒙古自治区各盟市、旗县(市、区)设计制作了一批具有很强表
1、【概念解说】工作调动申请书是职工向单位请求调动工作的要求文书。2
根据数码博主@数码闲聊站的爆料,iQOO11S将搭载3 2GHz骁龙8Gen2处理器
中新社北京6月26日电 (记者 王恩博)记者26日从中国农业银行获悉,
顺鑫农业拟剥离房地产业务,挂牌转让顺鑫佳宇全部股权,股权,房地产,顺
X 关闭
X 关闭