Yandex開源LLM訓練工具,可節省高達20%的GPU資源

程序員咋不禿頭 2024-06-19 06:14:02

2024 年 6 月 11 日,莫斯科跨國科技公司 Yandex 最近推出了一種用于訓練大型語言模型 (LLM) 的開源方法 YaFSDP, 用于增強 GPU 通信並減少 LLM 訓練中的內存使用量。

LLM 訓練依賴于組織成集群的大量 GPU,互連的圖形處理器陣列可以執行訓練具有數十億個參數的模型所需的大量計算。在集群中的處理器之間分配計算需要不斷通信,這通常會成爲“瓶頸”,減慢訓練過程並導致計算能力的低效使用。

爲了克服這一瓶頸,Yandex 開發人員創建了 YaFSDP,來改善 GPU 通信並優化學習速度和性能的方法。

YaFSDP 的工作原理是消除 GPU 通信效率低下的問題,從而優化網絡使用率並減少內存負載。它確保訓練時只需要必要的處理器內存,並使 GPU 交互不間斷,從而促進進一步的優化,例如最大限度地減少處理器通信時間。這可以顯著提高性能和內存效率。

YaFSDP 是 FSDP 的增強版,在 LLM 訓練中最耗通信的階段(如預訓練、對齊和微調)中,其表現優于 FSDP (Fully Sharded Data Parallel,全切片數據並行)方法。

官方表示,與 FSDP 相比,YaFSDP 訓練速度提升最高可達 26%,具體取決于架構和參數量。通過使用 YaFSDP 減少 LLM 的訓練時間可以節省高達 20% 的 GPU 資源。與 Yandex 的其他性能增強解決方案結合使用時,該方法可將某些模型的訓練過程加速高達 45%。

YaFSDP 方法可以有效應用于基于 transformer 的多層文本生成模型(多層感知器)。Mikhail Khruschev 表示:“YaFSDP 在 130 億至 700 億個參數的模型上表現出色,在 300 億至 700 億個參數範圍內表現尤爲驚人。目前,YaFSDP 最適合基于 LLaMA 架構的廣泛使用之開源模型。”

與 FSDP 相比,YaFSDP 在 Llama 2 和 Llama 3 上表現出的最終提速表明訓練效率顯著提高,在 Llama 2 70B 和 Llama 3 70B 上分別達到 21% 和 26%。

“目前,我們正在積極嘗試各種模型架構和參數大小,以擴展 YaFSDP 的多功能性,”Yandex 高級開發專家、YaFSDP 團隊成員 Mikhail Khruschev 指出,“我們很高興與全球 ML 社區分享我們在 LLM 訓練方面的研發成果,希望能爲全球研究人員和開發者獲得更多的開源工具和更高的效率做出貢獻。”

在大型語言模型 (LLM) 訓練期間,開發人員必須有效管理三種主要資源:計算能力、處理器內存和處理器通信。YaFSDP 保護了前兩個資源,這有助于加速 LLM 訓練過程。

YaFSDP 並不是 Yandex 的第一個開源工具。Yandex 之前曾分享過其他幾款在 ML 社區中很受歡迎的工具,包括:CatBoost,一種高性能的基于決策樹之梯度提升庫;YTsaurus,分布式存儲和處理的大數據平台。AQLM,先進的量化算法之一,用于大型語言模型的極限壓縮;Petals,一個旨在簡化 LLM 訓練和微調過程的庫。

Yandex 承諾爲全球人工智能社區的發展做出貢獻,將 YaFSDP 開源提供給全球的 LLM 開發人員和人工智能愛好者即是履行此承諾的其中一步。

0 阅读:0

程序員咋不禿頭

簡介:感謝大家的關注