Yandex推出开源大语言模型训练工具，称可节省高达20%的图形处理器资源

访客 2024-06-18 16:04:40 32430 抢沙发

默认

文｜罗曾

日前，全球科技公司Yandex推出了YaFSDP，这是一种用于训练大型语言模型(LLM)的开源方法。

据介绍，YaFSDP是目前在大型语言模型训练中增强图形处理器（GPU）通信并减少内存使用量的公开可用的最有效工具，与FSDP相比，根据架构和参数数量，其速度最多可提高26%。通过使用YaFSDP缩短大型语言模型的训练时间，可以节省高达20%的图形处理器资源。

Yandex公司高级开发人员、YaFSDP开发团队成员米哈伊尔·赫鲁晓夫（Mikhail Khruschev）表示：“目前，我们正在积极试验各种模型架构和参数大小，以扩展YaFSDP的多功能性。我们很高兴能与全球机器学习社区分享我们在大型语言模型方面的成果，为提高全球研究人员和开发人员的可访问性和效率做出贡献。”

事实上，大型语言模型训练是一个耗时且资源密集的过程。在大型语言模型训练期间，开发人员必须有效管理三种主要资源：计算能力、处理器内存和处理器通信。自行开发大型语言模型的机器学习工程师和企业会投入大量时间和图形处理器资源来训练这些模型。模型越大，与其训练相关的时间和费用就越多。

需要说明的是，大型语言模型训练依赖于组织成集群的众多图形处理器，这些集群是互连的图形处理器阵列，可以执行训练具有数十亿参数的模型所需的大量计算。在集群内的处理器之间分配计算需要持续的通信，这往往会成为“瓶颈”，减缓训练过程并导致计算能力的低效利用。

为了克服这一瓶颈，Yandex开发人员创建YaFSDP，优化了学习速度和性能，通过消除图形处理器通信效率低下的问题，确保了训练时仅需要关注必要的处理器内存，并使图形处理器交互不受干扰。这也使全球人工智能开发人员在训练模型时能够使用更少的计算能力和图形处理器资源。例如，在涉及一个具有700亿参数的模型的预训练场景中，使用YaFSDP可以节省大约150个图形处理器的资源，这相当于每月节省大约360万至1080万元人民币（取决于虚拟图形处理器提供商或平台）。

而YaFSDP是FSDP的增强版本，在大型语言模型训练中通信最密集的阶段，如预培训、对齐和微调，均优于FSDP方法。YaFSDP在Llama 2 和 Llama 3 上显示的最终加速结果表明，其训练速度有了显著提高，在 Llama 2 70B和Llama3 70B上分别达到21%和26%。当与Yandex的其他性能增强解决方案结合使用时，该方法可将某些模型的训练过程加速高达45%。

“YaFSDP在13至700亿个参数的模型上显示了令人印象深刻的结果，在30至700亿个参数范围内的表现尤为强劲，”米哈伊尔·赫鲁晓夫表示，“目前，YaFSDP最适合基于LLaMA架构的广泛使用的开源模型。”

标签：模型处理器