淘天集团与爱橙科技联合推出开源大模型训练框架Megatron-LLaMA

ai导航-热门ai工具网友投稿2年前 (2024)更新热门ai平台网友投稿收录

淘天集团和爱橙科技在9月12日正式对外发布了大规模语言模型训练框架Megatron-LLaMA的开源版本。这个框架旨在帮助技术开发者更便捷地提升大语言模型的训练性能，降低训练成本。

Megatron-LLaMA是基于Megatron-LM的分布式深度学习训练框架，专为大规模语言模型LLaMA的训练而设计。LLaMA已经成为开源社区中备受瞩目的大规模语言模型之一，该模型整合了多项优化技术，如BPE词元化、预规范化、旋转嵌入、SwiGLU激活函数、RMSNorm和非绑定嵌入等，从客观和主观评价上都展现出卓越的表现。

Megatron-LLaMA框架不仅提供了7B、13B、30B和65B/70B等多个模型规模的版本，还衍生出许多基于LLaMA的成功变体。不论是通过连续训练/监督微调还是从零开始训练，这些变体在长上下文理解、长上下文生成、代码编写、数学问题求解、工具使用等任务上都展现出卓越的能力。淘天集团与爱橙科技联合推出开源大模型训练框架Megatron-LLaMA

然而，由于大规模语言模型的训练或微调需要强大的计算资源，开发者在LLaMA上实现新设计往往非常昂贵。Megatron-LM则是一个综合了张量并行、流水线并行和序列并行的分布式训练解决方案，能够充分利用硬件资源，在训练拥有数百亿参数的模型时提高资源利用率，相较于基于Huggingface和DeepSpeed的公开版本LLaMA，Megatron-LM的性能更加出色。然而，原生的Megatron-LM在极大规模下可能会遇到分布式优化器通信瓶颈的问题。相对于直接使用HuggingFace获得的代码，Megatron-LLaMA在32卡训练上获得了176%的加速效果。在大规模训练上，Megatron-LLaMA相对于原生的Megatron-LM具有几乎线性的扩展性，并且对网络稳定性表现出高容忍度。

Megatron-LLama通过改进DistributedOptimizer的梯度聚合机制，实现了梯度通信与计算的并行，从而优化了反向传播流程。

目前，Megatron-LLaMA已经在GitHub上开源，淘天集团和爱橙科技将共同维护该项目，并积极关注社区的发展。他们与开发者们在自适应配置选择、模型支持等方面展开合作，以推动Megatron和LLaMA的生态建设。

Megatron-LLaMA的主要特点包括：

1. 实现了标准的LLaMA，可以按需配置其中的优化技术，并且未来还将支持Alibi和FlashAttention2等特性。

2. 通过实现高度重叠的通信和计算，提高了通信计算的并行性。类似于DeepSpeed ZeRO Stage2，这种优化大大减少了GPU内存的占用，提高了训练过程的吞吐量。

3. 提供了分布式检查点保存/恢复等实用工具，加速了训练过程，并且支持与HDFS等分布式文件系统的集成。同时也支持与HuggingFace transformers库的tokenizer集成，方便进行下游任务的迁移。

Megatron-LLaMA使得LLaMA模型的大规模训练变得快速、经济高效且具备可扩展性。它降低了训练大模型的门槛，对开源社区具有重要的贡献。

ai工具箱
 ai导航
免费aigc导航
 aigc工具
 免费ai工具