問題
最近在Ubuntu上使用Nvidia GPU訓(xùn)練模型的時(shí)候,沒有問題,過一會(huì)再訓(xùn)練出現(xiàn)非常卡頓,使用nvidia-smi查看發(fā)現(xiàn),顯示GPU的風(fēng)扇和電源報(bào)錯(cuò):
解決方案
自動(dòng)風(fēng)扇控制
在nvidia論壇有人給出了解決方案,即問題的根源可能是風(fēng)扇轉(zhuǎn)速不足使GPU過熱導(dǎo)致的。
首先開啟GPU的persistent mode,再設(shè)置風(fēng)扇的功率,重啟即可生效。其中250代表的是風(fēng)扇的最大功率限制,可以將其設(shè)置為最大,這樣過熱的時(shí)候風(fēng)扇就會(huì)自動(dòng)加大功率。
sudo nvidia-smi -pm 1
sudo nvidia-smi -pl 250
手動(dòng)風(fēng)扇控制
此外,還可以將GPU風(fēng)扇的手動(dòng)風(fēng)速控制打開。方法為:
首先,使用sudo nvidia-xconfig --enable-all-gpus命令打開所有g(shù)pu在xserver中的設(shè)置(不使用sudo可能無權(quán)限寫入新配置)
然后修改配置文件:sudo vim /etc/X11/xorg.conf,在其中的DeviceSection中加入Option “Coolbits” “4”如下圖所示:
如果機(jī)器上有多塊gpu,在第一步命令執(zhí)行后,會(huì)在這個(gè)xorg.conf中出現(xiàn)多個(gè)DeviceSection,都依次執(zhí)行第三步操作
重啟機(jī)器后,命令行執(zhí)行nvidia-settings,會(huì)打開設(shè)置界面,在其中的會(huì)顯示所有GPU的設(shè)置選項(xiàng),每個(gè)GPU控制選項(xiàng)下面都有一個(gè)Thermal settings,進(jìn)入后打開enable GPU Fan Setting即可對(duì)風(fēng)扇進(jìn)行手動(dòng)風(fēng)速調(diào)整了。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5080瀏覽量
103829 -
gpu
+關(guān)注
關(guān)注
28文章
4788瀏覽量
129431
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
0xmd公司通過NVIDIA GPU打造醫(yī)療AI解決方案
NVIDIA技術(shù)助力Pantheon Lab數(shù)字人實(shí)時(shí)交互解決方案
NVIDIA和GeForce RTX GPU專為AI時(shí)代打造
《CST Studio Suite 2024 GPU加速計(jì)算指南》
Supermicro推出直接液冷優(yōu)化的NVIDIA Blackwell解決方案
![Supermicro推出直接液冷優(yōu)化的<b class='flag-5'>NVIDIA</b> Blackwell<b class='flag-5'>解決方案</b>](https://file1.elecfans.com/web2/M00/0D/34/wKgaomdD4-WALgKBAApe6SDo0T4146.png)
AMD與NVIDIA GPU優(yōu)缺點(diǎn)
![](https://file1.elecfans.com/web2/M00/FE/9C/wKgZomai_rmAC1MZAAcG8-ZGlao305.png)
NVIDIA全面轉(zhuǎn)向開源GPU內(nèi)核模塊
![<b class='flag-5'>NVIDIA</b>全面轉(zhuǎn)向開源<b class='flag-5'>GPU</b>內(nèi)核模塊](https://file1.elecfans.com/web2/M00/FE/56/wKgZomahscOATwiOAAAJIjh4jLs592.png)
遠(yuǎn)程IO常見報(bào)錯(cuò)及解決方案,輕松應(yīng)對(duì)遠(yuǎn)程控制難題
恒訊科技的GPU云解決方案有什么特點(diǎn)和優(yōu)勢?
英偉達(dá)考慮縮減RTX 5090 Founder版顯卡尺寸,配備雙槽雙風(fēng)扇設(shè)計(jì)
使用OpenUSD和NVIDIA Omniverse開發(fā)虛擬工廠解決方案
![使用OpenUSD和<b class='flag-5'>NVIDIA</b> Omniverse開發(fā)虛擬工廠<b class='flag-5'>解決方案</b>](https://file1.elecfans.com/web2/M00/E9/E1/wKgZomZVrk6AS-ktAAAiaOvgNQc807.png)
評(píng)論