欧美日韩国产精品-欧美日韩国产精品综合-欧美日韩国产伦理-欧美日韩国产码高清综合人成-黄色网页在线观看-黄色网页在线播放

首頁 > 生活分享 > 免費教學(xué) > DeepSeek用的GRPO占用大量內(nèi)存?有人給出了些破解方法

DeepSeek用的GRPO占用大量內(nèi)存?有人給出了些破解方法

發(fā)布時間:2025-02-07 19:15:56來源: 15210273549
RTX 3080 移動版能訓(xùn)練哪種大模型?本文為那些 GPU 資源有限時使用 GRPO 訓(xùn)練的開發(fā)者提供了寶貴的指導(dǎo)。
 
自 DeepSeek-R1 發(fā)布以來,群組相對策略優(yōu)化(GRPO)因其有效性和易于訓(xùn)練而成為大型語言模型強化學(xué)習(xí)的熱門話題。R1 論文展示了如何使用 GRPO 從遵循 LLM(DeepSeek-v3)的基本指令轉(zhuǎn)變?yōu)橥评砟P停―eepSeek-R1)。
 
GRPO 是一種在線學(xué)習(xí)算法(online learning algorithm),它通過使用訓(xùn)練過程中由訓(xùn)練模型自身生成的數(shù)據(jù)來進行迭代改進。GRPO 的目標是最大化生成補全(completions)的優(yōu)勢函數(shù)(advantage),同時確保模型保持在參考策略(reference policy)附近。
 
 
本文的目的是幫你節(jié)省一些時間,讓你根據(jù)硬件預(yù)算選擇合適的模型大小。在開始微調(diào)時,你必須做出的重要決定是選擇模型大小,以及你是執(zhí)行完全微調(diào)還是參數(shù)高效微調(diào)(PEFT)。
 
文章作者來自 AI 公司 Oxen.ai 的 CEO Greg Schoeninger。
 
 
原文鏈接:https://www.oxen.ai/blog/grpo-vram-requirements-for-the-gpu-poor
 
作者表示,他發(fā)現(xiàn) trl 庫中已經(jīng)有一個易于使用的 GRPO 實現(xiàn),便立刻開始了訓(xùn)練,使用的硬件是配備了 16GB 顯存的 Nvidia GeForce RTX 3080 的小型筆記本電腦。正如大家可能遇到的問題,作者發(fā)現(xiàn)示例代碼中的參數(shù)設(shè)置導(dǎo)致了一個巨大的顯存不足(OOM,out of memory )錯誤。
 
torch
.
OutOfMemoryError
:
CUDA
out
of memory
.
Tried
to allocate
1.90
 
GiB
.
GPU
0
has a total capacity of
15.73
 
GiB
of which
1.28
 
GiB
 
is
free
.
 
Including
non
-
PyTorch
memory
,
 
this
process has
14.43
 
GiB
memory
in
 
use
.
 
Of
the allocated memory
11.82
 
GiB
 
is
allocated
by
 
PyTorch
,
 
and
 
2.41
 
GiB
 
is
reserved
by
 
PyTorch
but unallocated
.
 
If
reserved but unallocated memory
is
large
try
setting PYTORCH_CUDA_ALLOC_CONF
=
expandable_segments
:
True
to avoid fragmentation
.
 
See
documentation
for
 
Memory
 
Management
 
(
https
:
//pytorch.org/docs/stable/notes/cuda.html#environment-variables)
實際使用情況
 
作者表示,他們進行了一系列實驗,以確定訓(xùn)練各種大小的模型所需的顯存(VRAM)要求。參數(shù)數(shù)量從 5 億到 140 億不等,他們比較了權(quán)重的完全微調(diào)與參數(shù)高效微調(diào)(使用 LoRA),所有訓(xùn)練運行都在英偉達 H100 上完成,因此這里的 OOM 意味著 >80GB 的 VRAM。
 
 
在表格中,你可以找到 GSM8K 數(shù)據(jù)集上訓(xùn)練的前 100 步中的峰值內(nèi)存使用情況。用于實驗的模型是:
 
 
所有實驗均使用 Shadeform 的 GPU 市場完成,因此每次實驗只需要花費幾美元 H100。
 
實驗結(jié)果表明,內(nèi)存需求隨著模型大小和訓(xùn)練方式的不同而顯著變化。例如,全參數(shù)微調(diào)比 PEFT 需要更多的內(nèi)存。
 
為什么 GRPO 對內(nèi)存需求較高
 
這要從 GRPO 的原理說起,這是它的流程圖。
 
 
GRPO 對內(nèi)存需求較高的原因在于,其內(nèi)部涉及多個模型,并且在訓(xùn)練數(shù)據(jù)中每個查詢會產(chǎn)生多個輸出。上圖中的策略模型、參考模型和獎勵模型各自都是一個需要進行推理的 LLM。(盡管從技術(shù)上講,獎勵模型可能不需要參數(shù)化,可以只是一個 Python 函數(shù)或正則表達式,但不影響 GRPO 對內(nèi)存的高需求。)
 
為什么 8-Bit 優(yōu)化和梯度檢查點有助于減少內(nèi)存占用?
 
通常來講,訓(xùn)練一個大型語言模型需要在內(nèi)存中存儲三種主要類型的信息:模型參數(shù)、模型學(xué)習(xí)所需的梯度、優(yōu)化器的跟蹤數(shù)據(jù)。
 
對上述內(nèi)容我們可以這樣理解:如果模型的參數(shù)占用了 X 的空間,那么梯度也會占用大約相同的空間。然后,像 AdamW 這樣的優(yōu)化器需要更多的空間,因為它們就像一個記錄員,跟蹤最近的更新歷史,以便更好地決定未來的優(yōu)化。
 
為了減輕這種內(nèi)存負擔(dān),通常采用兩種技術(shù):
 
首先,可以使用像 AdamW 這樣的 8-bit 優(yōu)化器版本,它們能更高效地存儲跟蹤數(shù)據(jù),同時仍保持良好的性能 —— 類似于壓縮照片可以節(jié)省空間,同時保留大部分圖像質(zhì)量;
其次,使用梯度檢查點技術(shù),這就像在訓(xùn)練過程中拍攝快照,而不是記錄所有內(nèi)容。雖然這會使訓(xùn)練速度減慢約 20-30%,但它顯著減少了內(nèi)存使用。
結(jié)合這些技術(shù),即使對 GPU 資源有限的人來說,也能夠訓(xùn)練更大的模型。
 
代碼示例
 
像 trl 這樣的庫已經(jīng)開始支持 GRPO,使得微調(diào)由 transformers 構(gòu)成的 LLM 變得非常簡單。代碼也非常簡潔,只需將訓(xùn)練器替換為 GRPOTrainer 并定義一些獎勵即可。GRPO 的最小代碼量大約只有 99 行,如果你使用的是像 meta-llama/Llama-3.2-1B-Instruct 這樣的小型模型和像 openai/GSM8K 這樣的數(shù)據(jù)集,可以非??焖俚貑?。

免費教學(xué)更多>>

聯(lián)想集團近日累計漲超30% 受AIPC利好提振 官宣:2025年1月汽車新能源汽車銷量公布,誰在領(lǐng)跑,誰在掉隊? 新能源:為未來點亮的希望之光 上汽集團:智己汽車與豆包AI在智能座艙領(lǐng)域展開合作 春節(jié)返鄉(xiāng)600公里+,零跑C10用起來到底怎么樣?車主來為你解答 優(yōu)惠后16.99萬,配800V高壓,續(xù)航達580km,小鵬G6有多香? 合肥新增一處省工業(yè)旅游示范基地,蔚來合肥先進制造基地入選 廣汽集團啟動干部競聘上崗 人力資源部部長王挺昂怎么看? 2025前五周中國新能源銷量排名:小鵬理想直追特斯拉 佳能APS-C畫幅新機可能命名為EOS R50 V 尼康2025財年將售出85萬臺可更換鏡頭相機 2025年如何買到一款適合自己的相機 2025年無線游戲鼠標推薦:精準操控與極速響應(yīng)的終極利器 DeepSeek用的GRPO占用大量內(nèi)存?有人給出了些破解方法 RTX 5090顯卡玩《絕地求生》崩潰 官方回應(yīng)了 能拍碼率超過1500Mb/s的視頻——體驗康盈磁吸移動固態(tài)硬盤 為什么B840主板的價格更便宜?在哪方面縮水了? 機身自帶觸控板,Kidwants推出KN1迷你主機 字節(jié)最新OmniHuman數(shù)字人模型即將上線即夢 機器人首次參會!全國31省“新春第一會”透露的三大信號 DeepSeek大放異彩,AI迎來“破圈時刻” 抖音打車上線!流量巨頭劍指出行市場,格局將變? 跨境電商政策紅利來襲,2025 年行業(yè)變革前瞻 如何從零開始做電商:新手入門指南 輕松開啟創(chuàng)業(yè)之路 返程壓歲錢怎么花?來線下京東過一種很新的年! 探索天貓養(yǎng)車:一站式養(yǎng)車品牌的魅力 豫東淘寶第一村:電商巨浪下的王營村 成都2月6日新房及二手房成交數(shù)據(jù)!新房255套、二手房815套 他獨居130㎡新房,全屋一塵不染毫無雜物,不追求物欲,很舒服 刺激買房沒有效果后,2025年樓市,可能出現(xiàn)四個不可逆轉(zhuǎn)的趨勢
主站蜘蛛池模板: 手机看片福利在线 | 一级毛片大全 | 奇米影视777四色米奇影院 | 99热这里只有精品2 99热这里只有精品3 | 亚洲一区二区三区免费观看 | 国产视频一区二区三区四区 | 在线 v亚洲 v欧美v 专区 | 四虎影院在线播放 | 亚洲天天做日日做天天欢毛片 | 欧美日韩免费在线 | 一个人看的免费高清视频 | 日韩在线视频第一页 | 免费91视频 | xxxx性开放xxxx | 很黄很污的视频网站 | 看免费视频 | 国产三级视频在线 | 香蕉在线视频网站 | 丝袜美腿小色网 | 天堂网2021 | 天堂中文资源在线地址 | 色天天天综合色天天碰 | 亚洲日本欧美在线 | 婷婷伊人五月天 | 天天插天天爽 | 自偷自偷自亚洲首页精品 | 天堂影视网| 最新97超级碰碰碰碰久久久久 | 污污网站免费观看 | 欧美在线视频一区二区三区 | 在线免费看污视频 | 亚洲夜| 国产精品香蕉一区二区三区 | 能在线观看的一区二区三区 | 伊人网在线免费视频 | 成人污网站 | 久久美女精品国产精品亚洲 | 一区二区三区福利 | 亚洲一区二区三区在线 | 欧美视频 亚洲视频 | 青草九九 |