本文將介紹亞馬遜如何使用 NVIDIA NeMo 框架、GPU
以及亞馬遜云科技的 EFA 來訓練其
最大的新一代大語言模型(LLM)。
![wKgZomVnOoKAIrzWAACT_z650WI921.png](https://file1.elecfans.com//web2/M00/B3/96/wKgZomVnOoKAIrzWAACT_z650WI921.png)
大語言模型的一切都很龐大——巨型模型是在數(shù)千顆 NVIDIA GPU 和海量的數(shù)據(jù)集上所訓練而成。
不過這可能會給想要使用生成式 AI 的企業(yè)帶來很多巨大的挑戰(zhàn)。NVIDIA NeMo(一個用于構建、自定義和運行 LLM 的框架)能夠幫助企業(yè)克服上述挑戰(zhàn)。
亞馬遜云科技(AWS)有一支由資深科學家和開發(fā)者組成的團隊,致力于為 Amazon Bedrock(一項用于基礎模型的生成式 AI 服務)創(chuàng)建 Amazon Titan 基礎模型。該團隊在過去幾個月中一直在使用 NVIDIA NeMo。
亞馬遜云科技高級應用科學家 Leonard Lausen 表示:“我們使用 NeMo 的一大原因是它具有可擴展性,其優(yōu)化功能使我們能夠以較高的 GPU 利用率運行,同時能夠擴展到更大的集群,進而能夠更快地訓練出模型,并向客戶交付?!?/span>
實現(xiàn)真正的大規(guī)模訓練
NeMo 的并行技術可實現(xiàn)高效的大規(guī)模 LLM 訓練。當與亞馬遜云科技的 Elastic Fabric Adapter(EFA)配合使用時,團隊可以將 LLM 擴展到多顆 GPU 上,從而加快訓練速度。
EFA 為亞馬遜云科技客戶提供了一個 UltraCluster 聯(lián)網(wǎng)基礎設施,可直接連接 1 萬多顆 GPU,并使用 NVIDIA GPUDirect 繞過操作系統(tǒng)和 CPU。
這一結合使亞馬遜云科技的科學家們能夠提供出色的模型質量,這是只依靠其他數(shù)據(jù)并行方法無法大規(guī)模實現(xiàn)的。
通用框架
Lausen 表示:“NeMo 的靈活性支持亞馬遜云科技根據(jù)新的 Titan 模型、數(shù)據(jù)集和基礎設施的具體情況來定制訓練軟件。
亞馬遜云科技的創(chuàng)新成果包括從 Amazon Simple Storage Service(Amazon S3)到 GPU 集群的高效流式傳輸。Lausen 表示:“由于 NeMo 本身就是基于標準化 LLM 訓練管線組件的常用程序庫(如 PyTorch Lightning)所構建的,因此整合這些改進很容易?!?/p>
亞馬遜云科技和 NVIDIA 的共同目標是將雙方的合作經驗融入到 NVIDIA NeMo 等產品和 Amazon Titan 等服務中,最終造??蛻?。
GTC 2024 將于 2024 年 3 月 18 至 21 日在美國加州圣何塞會議中心舉行,線上大會也將同期開放。掃描下方海報二維碼,立即注冊 GTC 大會。
原文標題:NVIDIA 為部分大型亞馬遜 Titan 基礎模型提供訓練支持
文章出處:【微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。
-
英偉達
+關注
關注
22文章
3853瀏覽量
92063
原文標題:NVIDIA 為部分大型亞馬遜 Titan 基礎模型提供訓練支持
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
亞馬遜轉向Trainium芯片,全力投入AI模型訓練
亞馬遜追加40億美元投資,深化與Anthropic戰(zhàn)略合作
NVIDIA Isaac Sim滿足模型的多樣化訓練需求
FP8數(shù)據(jù)格式在大型模型訓練中的應用
![FP8數(shù)據(jù)格式在<b class='flag-5'>大型模型</b><b class='flag-5'>訓練</b>中的應用](https://file1.elecfans.com/web2/M00/0B/F0/wKgZomc8NlKAWO30AAASk-9i9ug054.png)
NVIDIA助力提供多樣、靈活的模型選擇
NVIDIA Nemotron-4 340B模型幫助開發(fā)者生成合成訓練數(shù)據(jù)
![<b class='flag-5'>NVIDIA</b> Nemotron-4 340B<b class='flag-5'>模型</b>幫助開發(fā)者生成合成<b class='flag-5'>訓練</b>數(shù)據(jù)](https://file1.elecfans.com/web2/M00/05/86/wKgZombaqFaAYqNYAAEgri7KFqc769.jpg)
新款Nvidia Titan GPU正在開發(fā)中?或將擊敗未發(fā)布的RTX 5090
![新款<b class='flag-5'>Nvidia</b> <b class='flag-5'>Titan</b> GPU正在開發(fā)中?或將擊敗未發(fā)布的RTX 5090](https://file.elecfans.com/web2/M00/55/FB/poYBAGLfmrOAMNitAAAqLsDZxGI249.png)
llm模型訓練一般用什么系統(tǒng)
預訓練模型的基本原理和應用
英偉達開源Nemotron-4 340B系列模型,助力大型語言模型訓練
NVIDIA Omniverse 將為全新 OpenPBR 材質模型提供原生支持
![<b class='flag-5'>NVIDIA</b> Omniverse 將為全新 OpenPBR 材質<b class='flag-5'>模型</b><b class='flag-5'>提供</b>原生<b class='flag-5'>支持</b>](https://file1.elecfans.com/web2/M00/ED/95/wKgZomZruEWABYkwAAAYhbjIEDQ815.png)
評論