清華發布TemporalScalingLaw,解釋時間尺度對大模型表現的影響

科技有夕小瑤 2024-05-13 06:31:14

衆所周知,

語言模型調參!

預訓練語言模型調參!!

預訓練大語言模型調參!!!

簡直就是一個指數級遞增令人炸毛的事情,小編也常常在做夢,要是只訓練幾步就知道現在的超參數或者數據配比能不能行,那該有多好。

但現在,有一篇工作似乎正在令小編的夢想成爲現實,那就是清華大學提出的Temporal Scaling Law。根據他們提出的這條規則,便可以通過當前訓練步來准確預測未來訓練步損失(loss)的下降情況,從而可以極大程度上提高各位煉丹師的效率。

此外,正所謂“重劍無鋒,大巧不工”,這篇研究還發現在訓練過程中並不需要針對token position添加權重,默認的預訓練模式就足以達到非常好的效果。

GPT-3.5研究測試:https://hujiaoai.cn

GPT-4研究測試:https://higpt4.cn

Claude-3研究測試(全面吊打GPT-4):https://hiclaude3.com

論文標題Temporal Scaling Law for Large Language Models

論文鏈接https://arxiv.org/pdf/2404.17785

Scaling Law

在介紹本文工作之前,先來回顧一下2020年由Kaplan等人首次提出的Scaling Law,即對于生成式Transformer模型,測試損失與模型大小、數據集大小和用于訓練的計算量之間存在冪律關系(power-law relationship)。

此後,也陸續有研究在遷移學習(transfer-learning)和多模態預訓練(multi-modal pre-training)驗證了scaling law的存在。

Temporal Scaling Law1. 從Scaling Law到Temporal Scaling Law

如前文所述,Scaling Law更側重于建立測試損失與各個靜態屬性之間的關系,盡管Kaplan等人也提出測試損失與訓練步之間遵從冪律,但這是建立在無限訓練數據和訓練步數前提下的,而這顯然不符合我們的現實情況。

因此,本文在Scaling Law的基礎上,進一步提出了考慮訓練時間維度的Temporal Scaling Law,用以描述訓練步與測試損失之間的關系,從而勾勒出大語言模型(LLMs)的預訓練軌迹。

2. 實驗設置訓練數據:本文選用了Pile數據集作爲預訓練數據,這是一個包括22個領域的單語言大規模數據集測試數據:爲度量測試損失,本文構造了兩個測試數據,包括一個同樣來自Pile的同分布數據集(IID-Val)和一個來自PG-19的異分布數據集(OOD-Val),都處理成1024 tokens的長度。測試損失取測試集中的所有序列損失的平均模型選擇:本文選用了468M和1.2B兩種大小的生成式語言模型訓練方法:所有模型都需要經過400B tokens的訓練,爲捕捉時間維度訓練進展,本文在訓練階段每隔1B個tokens創建一個checkpoint,並使用這些checkpoint進行測試損失評估度量指標:爲評估temporal scaling law的預測結果對真實測試損失的擬合情況,本文采用了可決指數(coefficient of determination,)和均方誤差(mean-square error,),前者表示所提出模型可解釋原始數據方差的比例,後者度量所提出模型的預測結果對真實值的誤差3. Temporal Scaling Law

語言模型的本質是經過訓練的統計模型,即根據先前所有token對下一個token的概率分布進行預測建模。,其中。因此,對于一個連續的序列,我們通常會認爲位于後面的token會比位于前面的token更好預測,因爲它有更多的背景信息,即:

爲驗證這一假設,本文在IID-Val數據集上用468M和1.2B模型預訓練400B tokens進行實驗

與假設一致,在兩種大小的模型上都呈現出一致的規律,即輸入序列中位置更靠前的token(背景信息更少)往往有更高的測試損失,而隨著token位置越來越靠後逐漸收斂到一個固定的數值。通過以下倒數關系(reciprocal-law)的等式來擬合這種趨勢,其中爲token在輸入序列中的位置

其中,,和爲擬合參數。其中,表示序列第一個token和最後一個token之間的損失差,爲基于序列長度的縮放因子,爲收斂因子,表示隨著上下文的延長,每個token上損失的收斂值。下圖展示了在468M模型的整個預訓練階段,IID Val上,,和的擬合曲線。

當時(表示總訓練步數),和收斂。因此,對于,取, 。此外還發現與學習率衰減呈強相關關系。

最終,未來測試損失可通過平均所有token位置的損失以進行預測:

對比基于Kaplan等人冪律,倒數和對數關系的baseline,通過Temporal Scaling Law的未來損失預測具有顯著優勢:

4. 不同token位置加權重?

前面的實驗發現,位于輸入序列頭部的token往往更難預測,但隨著訓練更多的tokens以後,和逐漸趨于平穩,意味著LLMs開始對于不同位置的token平等學習。那麽是否還需要對不同位置的token加不同權重以促進模型學習呢?

爲驗證這一點,本文將默認的預訓練方法與3種簡單的加權方法在8個公開評測數據上進行對比,分別是

頭部抑制:頭部10%的token計算損失時乘以0.5的權重中部抑制:中部80%的token計算損失時乘以0.5的權重尾部抑制:尾部10%的token計算損失時乘以0.5的權重

實驗發現,加權方法對比默認方法並沒有明顯優勢,基本都取得了相當的效果,證實了現行默認的預訓練方法已經足夠有效。

結論與展望1. 本文貢獻

本文在Scaling Law的基礎上,進一步提出了Temporal Scaling Law,從而實現在時間維度上分析和預測LLMs在預訓練過程中的損失變化,從而助力研究者們更好地把握LLMs預訓練趨勢,提高調參效率。

本文通過研究不同模型規模和訓練階段下LLMs每個token位置的損失不平衡現象,發現損失模式遵循一個倒數關系,並提供了這種模式的數學化描述。

此外,本文通過Temporal Scaling Law揭示了LLMs在不同token位置的學習模式,盡管在初始訓練階段存在不同位置token的損失不平衡,但LLMs在經過一定量token的訓練以後,會對所有token位置平等學習。以此爲啓發,本文也驗證了默認的LLMs訓練範式(不使用基于位置的重加權策略)的有效性,爲LLMs的預訓練提供了更深入的理解。

2. 當前挑戰與未來展望本文的研究主要著眼于以transformer decoder爲底座的類GPT生成式模型,而沒有對transformer encoder爲底座的模型或混合專家模型(Mixed of Experts Models)進行探索,因此本文的結論可能並不能推廣,還有待進一步驗證。本文的研究主要集中在預訓練階段。而其他情況,如持續預訓練,有監督微調,遷移學習,並沒有被包括在內。在這些方向上,也有待做進一步驗證。此外,本文僅在468M和1.2B兩個規模的模型上進行了驗證,並沒有推廣到更大尺度的LLMs上面,因此Temporal Scaling Law能否推廣到更大的模型上還需要更充分的實驗。

0 阅读:0

科技有夕小瑤

簡介:感謝大家的關注