電子發(fā)燒友網(wǎng)>電子資料下載>單片機(jī)>最基本的深度學(xué)習(xí)系統(tǒng)的硬件指南

最基本的深度學(xué)習(xí)系統(tǒng)的硬件指南

2362486 2017-09-22 | rar | 1.10 MB | 次下載 | 1積分

資料介紹

　　由于深度學(xué)習(xí)的計(jì)算相當(dāng)密集，所以有人覺得“必須要購(gòu)買一個(gè)多核快速CPU”，也有人認(rèn)為“購(gòu)買快速CPU可能是種浪費(fèi)”。

　　那么，這兩種觀點(diǎn)哪個(gè)是對(duì)的？其實(shí)，在建立深度學(xué)習(xí)系統(tǒng)時(shí)，最糟糕的事情之一就是把錢浪費(fèi)在不必要的硬件上。本文將告訴你如何用最省錢的方式，來搭建一個(gè)高性能深度學(xué)習(xí)系統(tǒng)。

　　當(dāng)初，在我研究并行深度學(xué)習(xí)過程中，我構(gòu)建了一個(gè)GPU集群，所以我需要仔細(xì)選擇硬件。盡管經(jīng)過了反復(fù)的研究和推理，但當(dāng)我挑選硬件時(shí)，我仍然會(huì)犯許多錯(cuò)誤，并且當(dāng)應(yīng)用于實(shí)踐中時(shí)，那些錯(cuò)誤就展現(xiàn)出來了。所以，在這里，我想分享一下我所學(xué)到的知識(shí)，希望你不會(huì)像我一樣再陷入同樣的陷阱。

　　▍GPU

　　本文假設(shè)您將使用GPU進(jìn)行深度學(xué)習(xí)。如果您正在建立或升級(jí)您的系統(tǒng)，那么忽視GPU是不明智的。 GPU才是深度學(xué)習(xí)應(yīng)用的核心，它能大大提升處理速度，所以絕對(duì)不能忽略。

　　我在之前的文章中詳細(xì)介紹了GPU的選擇，并且GPU的選擇可能是您的深度學(xué)習(xí)系統(tǒng)中最關(guān)鍵的選擇。

　　一般來說，如果您的資金預(yù)算有限，我推薦您購(gòu)買GTX 680，或者GTX Titan X（如果你很有錢，可用它做卷積）或GTX 980（它性價(jià)比很高，但若做大型卷積神經(jīng)網(wǎng)絡(luò)就有些局限性了），它們?cè)趀Bay上就能買得到。

　　另外，低成本高性價(jià)比的內(nèi)存我推薦GTX Titan。之前我支持過GTX 580，但是由于新更新的cuDNN庫(kù)顯著提升了卷積速度，故而所有不支持cuDNN的GPU都已經(jīng)過時(shí)了，其中 GTX 580就是這樣一款GPU。如果您不使用卷積神經(jīng)網(wǎng)絡(luò)，GTX 580仍然是一個(gè)很好的選擇。

　　你能識(shí)別上面哪個(gè)硬件會(huì)導(dǎo)致糟糕的表現(xiàn)？是這些GPU的其中一個(gè)？還是CPU？

　　▍CPU 要選擇CPU，我們首先要了解CPU及它與深度學(xué)習(xí)的關(guān)系。 CPU對(duì)深度學(xué)習(xí)有什么作用？當(dāng)您在GPU上運(yùn)行深度網(wǎng)絡(luò)時(shí)，CPU幾乎沒有計(jì)算，但是CPU仍然可以處理以下事情：

　　在代碼中寫入和讀取變量

　　執(zhí)行諸如函數(shù)調(diào)用的指令

　　在GPU上啟動(dòng)函數(shù)調(diào)用

　　創(chuàng)建小批量數(shù)據(jù)

　　啟動(dòng)到GPU的數(shù)據(jù)傳輸

　　所需CPU的數(shù)量

　　當(dāng)我用三個(gè)不同的庫(kù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)時(shí)，我總是看到一個(gè)CPU線程是100％（有時(shí)另一個(gè)線程會(huì)在0到100％之間波動(dòng)）。而且這一切立即告訴你，大多數(shù)深入學(xué)習(xí)的庫(kù)，以及實(shí)際上大多數(shù)的軟件應(yīng)用程序，一般僅使用一個(gè)線程。

　　這意味著多核CPU相當(dāng)無用。如果您運(yùn)行多個(gè)GPU，并使用MPI之類的并行化框架，那么您將一次運(yùn)行多個(gè)程序，同時(shí)，也需要多個(gè)線程。

　　每個(gè)GPU應(yīng)該是一個(gè)線程，但每個(gè)GPU運(yùn)行兩個(gè)線程將會(huì)為大多數(shù)深入學(xué)習(xí)庫(kù)帶來更好的性能；這些庫(kù)在單核上運(yùn)行，但是有時(shí)會(huì)異步調(diào)用函數(shù)，就使用了第二個(gè)CPU線程。

　　請(qǐng)記住，許多CPU可以在每個(gè)內(nèi)核上運(yùn)行多個(gè)線程（這對(duì)于Intel 的CPU尤為如此），因此通常每個(gè)GPU對(duì)應(yīng)一個(gè)CPU核就足夠了。

　　CPU和PCI-Express

　　這是一個(gè)陷阱！一些新的Haswell CPU不支持那些舊CPU所支持的全部40個(gè)PCIe通道。如果要使用多個(gè)GPU構(gòu)建系統(tǒng)，請(qǐng)避免使用這些CPU。另外，如果您有一個(gè)帶有3.0的主板，則還要確保您的處理器支持PCIe 3.0。

　　CPU緩存大小

　　正如我們將在后面看到的那樣，CPU高速緩存大小在“CPU-GPU-管線”方面是相當(dāng)無關(guān)緊要的，但是我還是要做一個(gè)簡(jiǎn)短的分析，以便我們確保沿著這條計(jì)算機(jī)管道能考慮到每一個(gè)可能出現(xiàn)的瓶頸，進(jìn)而我們可以全面了解整體流程。

　　通常人們購(gòu)買CPU時(shí)會(huì)忽略緩存，但通常它是整體性能問題中非常重要的一部分。 CPU緩存的片上容量非常小，且位置非?？拷麮PU，可用于高速計(jì)算和操作。 CPU通常具有緩存的分級(jí)，從小型高速緩存（L1，L2）到低速大型緩存（L3，L4）。

　　作為程序員，您可以將其視為哈希表，其中每個(gè)數(shù)據(jù)都是鍵值對(duì)（key-value-pair），您可以在特定鍵上進(jìn)行快速查找：如果找到該鍵，則可以對(duì)高速緩存中的值執(zhí)行快速讀寫操作; 如果沒有找到（這被稱為緩存未命中），則CPU將需要等待RAM趕上，然后從那里讀取該值（這是非常緩慢的過程）。重復(fù)的緩存未命中會(huì)導(dǎo)致性能顯著降低。高效的CPU高速緩存方案和架構(gòu)，通常對(duì)CPU的性能至關(guān)重要。

　　CPU如何確定其緩存方案，是一個(gè)非常復(fù)雜的主題，但通?？梢约俣ㄖ貜?fù)使用的變量、指令和RAM地址將保留在緩存中，而其他不太頻繁出現(xiàn)的則不會(huì)。

　　在深度學(xué)習(xí)中，相同的內(nèi)存范圍會(huì)重復(fù)被小批量讀取，直到送到GPU，并且該內(nèi)存范圍會(huì)被新數(shù)據(jù)覆蓋。但是如果內(nèi)存數(shù)據(jù)可以存儲(chǔ)在緩存中，則取決于小批量大小。

　　對(duì)于128位的小批量大小，我們對(duì)應(yīng)于MNIST和CIFAR分別有0.4MB和1.5 MB，這適合大多數(shù)CPU緩存；對(duì)于ImageNet，我們每個(gè)小批量有超過85 MB的數(shù)據(jù)（），即使是最大的緩存（L3緩存不超過幾MB），也算是很大的了。

　　由于數(shù)據(jù)集通常太大而無法適應(yīng)緩存，所以新的數(shù)據(jù)需要從RAM中每個(gè)讀取一小部分新的，并且需要能夠以任何方式持續(xù)訪問RAM。

　　RAM內(nèi)存地址保留在緩存中（CPU可以在緩存中執(zhí)行快速查找，并指向RAM中數(shù)據(jù)的確切位置），但是這僅限于整個(gè)數(shù)據(jù)集都存儲(chǔ)于RAM時(shí)才會(huì)如此，否則內(nèi)存地址將改變，并且緩存也不會(huì)加速（稍后你會(huì)看到的，使用固定內(nèi)存時(shí)則不會(huì)出現(xiàn)這種情況，但這并不重要）。

　　深度學(xué)習(xí)代碼的其他部分（如變量和函數(shù)調(diào)用），將從緩存中受益，但這些代碼通常數(shù)量較少，可輕松適應(yīng)幾乎任何CPU的小型快速L1緩存。

　　從這個(gè)推理結(jié)果可以看出，CPU緩存大小不應(yīng)該很重要。下一節(jié)進(jìn)一步分析的結(jié)果，也與此結(jié)論相一致。