欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

京東廣告生成式召回基于 NVIDIA TensorRT-LLM 的推理加速實踐

京東云 ? 來源:jf_75140285 ? 作者:jf_75140285 ? 2025-01-14 15:17 ? 次閱讀

作者:京東零售 陳航

0000 生成式推薦系統(tǒng)優(yōu)勢介紹

推薦系統(tǒng)的主要任務(wù)是根據(jù)用戶的歷史行為預(yù)測其興趣點,并向其推薦相應(yīng)的商品。傳統(tǒng)的推薦系統(tǒng)在處理用戶請求時,會觸發(fā)多個召回模塊(包括熱門商品召回、個性化召回、深度召回等),以召回大量候選商品。隨后,系統(tǒng)通過相對簡單的粗排模型對候選集進行初步篩選,縮小候選范圍,最后通過精排和重排模型,確定最終返回給用戶的推薦結(jié)果。

隨著大語言模型(LLM)在推薦系統(tǒng)中的應(yīng)用,生成式推薦系統(tǒng)相比傳統(tǒng)推薦系統(tǒng)展現(xiàn)出以下優(yōu)勢:

1)簡化推薦流程:生成式推薦系統(tǒng)實現(xiàn)了從多級過濾的判別式(discriminative-based)架構(gòu)向單級過濾的生成式(generative-based)架構(gòu)的轉(zhuǎn)變。通過直接生成推薦結(jié)果,簡化了推薦流程,降低了系統(tǒng)復(fù)雜度。

2)知識融合:LLM 具有更強的泛化能力和穩(wěn)定性。利用 LLM 所包含的世界知識和推理能力,可以突破傳統(tǒng)電子商務(wù)平臺在商品和用戶建模中存在的數(shù)據(jù)局限性。在新用戶和新商品的冷啟動以及新領(lǐng)域的推薦場景中,生成式推薦系統(tǒng)能夠提供更優(yōu)的推薦效果和更好的遷移性能。

3)規(guī)模定律 (Scaling Law):傳統(tǒng)的點擊率(CTR)稀疏模型在模型規(guī)模擴大時,邊際收益遞減現(xiàn)象明顯。而 LLM 所表現(xiàn)出的規(guī)模定律屬性,為模型的有效擴展提供了一種新模式,即模型性能隨著規(guī)模的增加而持續(xù)提升。這意味著通過擴大模型規(guī)模,可以獲得更好的推薦效果,突破傳統(tǒng)模型的性能瓶頸。

0001 生成式召回方案介紹

1、生成式召回算法與實現(xiàn)簡介

生成式推薦涉及兩個接地(grounding)過程:一是建立商品與自然語言的連接。二是建立用戶行為與目標(biāo)商品之間的連接。為實現(xiàn)這兩個過程,我們需要以下幾步:

1)商品表示:在實際操作中,直接生成文檔或商品描述幾乎是不可行的。因此,我們采用短文本序列,即語義 ID,來表征商品。選取高點擊商品的標(biāo)題、類目等語義信息,經(jīng)由編碼器模型獲得向量表示,再利用 RQ-VAE 對向量進行殘差量化,從而獲得商品的語義 ID。例如,商品:“XXX品牌 14+ 2024 14.5 英寸輕薄本 AI 全能本高性能獨顯商務(wù)辦公筆記本電腦” 可表示為:。

2)用戶畫像&行為建模:通過構(gòu)建提示詞來定義任務(wù),并將用戶相關(guān)信息(例如用戶畫像和用戶歷史行為數(shù)據(jù))轉(zhuǎn)化為文本序列。例如:“用戶按時間順序點擊過這些商品:,, 你預(yù)測用戶下一個可能點擊的商品是? ”。

3)模型訓(xùn)練:確定了生成模型的輸入(用戶表示)和輸出(商品物料標(biāo)識符),即可基于生成式 Next Token Prediction 任務(wù)進行模型訓(xùn)練。

4)模型推理:經(jīng)過訓(xùn)練后,生成模型能夠接收用戶信息并預(yù)測相應(yīng)的商品語義 ID,這些語義標(biāo)識可以對應(yīng)數(shù)據(jù)集中的實際商品 ID。

(了解詳細算法方案請參考: 生成式推薦系統(tǒng)與京東聯(lián)盟廣告-綜述與應(yīng)用 。 )

2、LLM 模型部署的工程適配

傳統(tǒng)基于深度學(xué)習(xí)的召回模型,其參數(shù)量通常在幾十萬到幾千萬之間,且模型結(jié)構(gòu)以Embedding層為主。而采用大語言模型(LLM)實現(xiàn)的生成式召回模型,其參數(shù)規(guī)模大幅提升至0.5B至7B之間,模型結(jié)構(gòu)主要由Dense網(wǎng)絡(luò)構(gòu)成。由于參數(shù)量的急劇增加,LLM在推理過程中所需的計算資源相比傳統(tǒng)模型顯著提升,通常高出數(shù)十倍甚至上百倍。這使得LLM在處理復(fù)雜任務(wù)時具備更強的表現(xiàn)力,但同時也對計算能力有了更高的要求。

將如此龐大的算力模型部署至線上環(huán)境,并確保其滿足毫秒級實時響應(yīng)的需求,同時在嚴格控制資源成本的前提下實現(xiàn)工業(yè)化應(yīng)用,這無疑是對工程能力的巨大考驗。因此,我們必須對在線推理架構(gòu)進行極致的性能優(yōu)化。

3、基于 TensorRT-LLM 的 LLM 構(gòu)建優(yōu)化及其系統(tǒng)部署

· 在建模封裝層,通過 TensorRT-LLM 實現(xiàn) LLM 模型的構(gòu)建與優(yōu)化。然后將 LLM 無縫整合至現(xiàn)有生態(tài)系統(tǒng),利用 PythonTensorFlow API 實現(xiàn)端到端推理圖的構(gòu)建。基于 TensorFlow 原生算子及現(xiàn)有業(yè)務(wù)的自定義 TensorFlow 算子庫(例如用戶行為特征處理算子),實現(xiàn)算法的靈活建模。

· 在推理優(yōu)化層,通過應(yīng)用 Inflight Batching、Constrained Sampling、Flash Attention 及 Paged Attention 等加速方案,最大限度地提升單卡吞吐量并降低推理延遲。

· 在系統(tǒng)部署方面,為了最大化利用時間資源,生成式召回的部署采用了與傳統(tǒng)多分支召回模塊并行的方式。由于生成式召回簡化了推理流程,相較于傳統(tǒng)召回方式,其資源消耗更少,運行時間更短,并且取得了優(yōu)異的召回效果。

4、生成式召回在推薦及搜索場景應(yīng)用效果

目前,生成式召回已在京東廣告推薦場景及搜索場景等業(yè)務(wù)線成功實施。在推薦場景,借助生成式模型的參數(shù)規(guī)模及語義理解優(yōu)勢,AB 實驗結(jié)果顯示商品點擊率與消費帶來了顯著的提升。在搜索場景,通過 LLM 所具備的語義理解能力,顯著提升了對查詢與商品的認知能力,特別是在處理搜索中的長尾查詢時,填充率有明顯提升,AB 實驗同樣取得了點擊率與消費幾個點的收益增長。

0010 推理優(yōu)化加速: 實現(xiàn)降低延遲、提升吞吐

在線推理基于Nvidia TensorRT-LLM, 通過使用 TensorRT-LLM 中的多種優(yōu)化特性,并針對廣告生成式召回業(yè)務(wù)場景進行深度定制優(yōu)化后, 不僅模型推理延遲達到線上業(yè)務(wù)要求, 同時吞吐也有著顯著提升。

在 NVIDIA GPU 上進行的測試中,通過對比 TensorRT-LLM 與基線,發(fā)現(xiàn)在限制 100 毫秒推理耗時的廣告場景下,采用 TensorRT-LLM 進行推理,疊加針對業(yè)務(wù)的定制優(yōu)化后,其吞吐量相較于 baseline提升了五倍以上。這相當(dāng)于將部署成本降至原來的五分之一。

對于這個特定的應(yīng)用場景,beam width 的合理配置對檢索結(jié)果有著重要影響。一般來說,較高的 beam width 能夠增加候選商品的數(shù)量,從而提高檢索的準(zhǔn)確性。以返回 300 個商品為例,若 beam width 設(shè)置較低,每個 code 就需要對應(yīng)更多的商品 id,這無疑會降低檢索的精度。

針對這個情況,一方面我們與NVIDIA DevTech 技術(shù)團隊合作進行了有針對性的二次開發(fā)和優(yōu)化工作,另一方面,結(jié)合生成式召回的業(yè)務(wù)場景,研發(fā)定制高性能GPU算子,大幅提升推理效率,最終讓 TensorRT-LLM 支持更大范圍的 beam width, 從而及時滿足了線上的業(yè)務(wù)需求。

0011 持續(xù)優(yōu)化以實現(xiàn)模型效率效果提升

未來, 我們將持續(xù)在生成式推薦領(lǐng)域深入探索, 重點聚焦以下幾個方面

1)提升模型規(guī)模,滿足實時推理需求

當(dāng)前,受制于算力、時間消耗和成本等客觀條件,生成式推薦系統(tǒng)在實時推理中的可部署模型規(guī)模相對較小(約 0.5B 至 6B 參數(shù))。然而,離線實驗數(shù)據(jù)表明,擴大模型規(guī)模能夠顯著提升線上推薦效果。這對在線性能優(yōu)化提出了更高要求。為了在不顯著增加成本的前提下支持更大規(guī)模的模型在線部署,需要進一步優(yōu)化模型結(jié)構(gòu)和推理效率。例如,采用模型剪枝、量化等模型壓縮技術(shù),優(yōu)化采樣檢索算法效率,以及高效的分布式推理架構(gòu)。

2)擴展用戶行為輸入,提高模型效果

實驗證明,輸入更長的用戶歷史行為序列可以提升模型的推薦效果。然而,更長的序列輸入會導(dǎo)致計算資源消耗的增加和推理時間的延長。為此,需要尋求在效果提升和性能開銷之間的平衡。對應(yīng)的優(yōu)化方案包括:

a. Token 序列壓縮:通過對輸入序列進行壓縮,如去除冗余信息、合并相似行為等,減少序列長度的同時保留關(guān)鍵信息。

b. 用戶行為 KV 緩存復(fù)用:在推理過程中,針對用戶行為特征有序遞增的特點,對長期行為進行離線計算并進行緩存,在線部分負責(zé)計算實時行為,避免重復(fù)計算的同時最大化利用算力,提高推理效率。

3)融合稀疏與稠密模型,實現(xiàn)聯(lián)合推理

隨著模型參數(shù)量的增大,可以考慮將稀疏的傳統(tǒng) CTR 模型與稠密的 LLM 模型進行聯(lián)合推理。稀疏模型擅長處理高維度的稀疏特征,具有計算效率高的優(yōu)勢;而稠密模型能夠捕獲復(fù)雜的非線性特征和深層次的語義信息。通過融合兩者的優(yōu)勢,構(gòu)建一個兼具高效性和精確性的推薦系統(tǒng)。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5080

    瀏覽量

    103828
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    0

    文章

    301

    瀏覽量

    412
收藏 人收藏

    評論

    相關(guān)推薦

    NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

    Recurrent Drafting (簡稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發(fā)并開源的一種新型推測解碼技術(shù),該技術(shù)現(xiàn)在可與 NVIDIA TensorRT-L
    的頭像 發(fā)表于 12-25 17:31 ?274次閱讀
    在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT-LLM</b>中啟用ReDrafter的一些變化

    解鎖NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一個專為優(yōu)化大語言模型 (LLM) 推理而設(shè)計的庫。它提供了多種先進的優(yōu)化技術(shù),包括自定義 Attention Kernel、Inflight
    的頭像 發(fā)表于 12-17 17:47 ?298次閱讀

    NVIDIA TensorRT-LLM Roadmap現(xiàn)已在GitHub上公開發(fā)布

    感謝眾多用戶及合作伙伴一直以來對NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 現(xiàn)已在 GitHub 上公開發(fā)布!
    的頭像 發(fā)表于 11-28 10:43 ?348次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT-LLM</b> Roadmap現(xiàn)已在GitHub上公開發(fā)布

    NVIDIA助力Amdocs打造生成AI智能體

    正在使用NVIDIA DGX Cloud 與 NVIDIA AI Enterprise軟件開發(fā)和交付基于商用大語言模型(LLM)和領(lǐng)域適配模型的解決方案。該公司還在使用NVIDIA
    的頭像 發(fā)表于 11-19 14:48 ?426次閱讀

    TensorRT-LLM低精度推理優(yōu)化

    本文將分享 TensorRT-LLM 中低精度量化內(nèi)容,并從精度和速度角度對比 FP8 與 INT8。首先介紹性能,包括速度和精度。其次,介紹量化工具 NVIDIA TensorRT Model
    的頭像 發(fā)表于 11-19 14:29 ?493次閱讀
    <b class='flag-5'>TensorRT-LLM</b>低精度<b class='flag-5'>推理</b>優(yōu)化

    NVIDIA加速計算和生成AI領(lǐng)域的創(chuàng)新

    在最新發(fā)布的公司 2024 財年可持續(xù)發(fā)展報告開篇的一封信中,NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛介紹了 NVIDIA加速計算和生成
    的頭像 發(fā)表于 09-09 09:18 ?664次閱讀

    NVIDIA Nemotron-4 340B模型幫助開發(fā)者生成合成訓(xùn)練數(shù)據(jù)

    Nemotron-4 340B 是針對 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 優(yōu)化的模型系列,該系列包含最先進的指導(dǎo)和獎勵模型,以及一個用于生成
    的頭像 發(fā)表于 09-06 14:59 ?392次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron-4 340B模型幫助開發(fā)者<b class='flag-5'>生成</b>合成訓(xùn)練數(shù)據(jù)

    三行代碼完成生成AI部署

    LLM加載與推理部署能力,實現(xiàn)了OpenVINO對CNN網(wǎng)絡(luò)、生成模型、LLM網(wǎng)絡(luò)主流模型的全面推理
    的頭像 發(fā)表于 08-30 16:49 ?472次閱讀
    三行代碼完成<b class='flag-5'>生成</b><b class='flag-5'>式</b>AI部署

    魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社區(qū)是中國最具影響力的模型開源社區(qū),致力給開發(fā)者提供模型即服務(wù)的體驗。魔搭社區(qū)利用NVIDIA TensorRT-LLM,大大提高了大語言模型的推理性能,方便了模型應(yīng)用部署,提高了大模型產(chǎn)業(yè)應(yīng)用效率,更大規(guī)模地釋放大模型的
    的頭像 發(fā)表于 08-23 15:48 ?538次閱讀

    LLM大模型推理加速的關(guān)鍵技術(shù)

    LLM(大型語言模型)大模型推理加速是當(dāng)前人工智能領(lǐng)域的一個研究熱點,旨在提高模型在處理復(fù)雜任務(wù)時的效率和響應(yīng)速度。以下是對LLM大模型推理
    的頭像 發(fā)表于 07-24 11:38 ?1033次閱讀

    NVIDIA推出NVIDIA AI Computing by HPE加速生成 AI 變革

    簡化 AI 創(chuàng)造價值的過程,加速生成 AI 的發(fā)展步伐。 NVIDIA AI Computing by HPE 由 HPE 與 NVIDIA
    的頭像 發(fā)表于 06-20 17:36 ?790次閱讀

    生成推薦系統(tǒng)與京東聯(lián)盟廣告-綜述與應(yīng)用

    的日常生活,如何用LLM有效重塑RS是一個有前景的研究問題[20, 25]。 這篇文章從生成推薦系統(tǒng)與京東聯(lián)盟廣告各自的背景出發(fā),引出二者
    的頭像 發(fā)表于 06-13 15:41 ?484次閱讀
    <b class='flag-5'>生成</b><b class='flag-5'>式</b>推薦系統(tǒng)與<b class='flag-5'>京東</b>聯(lián)盟<b class='flag-5'>廣告</b>-綜述與應(yīng)用

    NVIDIA加速微軟最新的Phi-3 Mini開源語言模型

    NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微軟最新的 Phi-3 Mini 開源語言模型。TensorRT-LLM
    的頭像 發(fā)表于 04-28 10:36 ?648次閱讀

    利用NVIDIA組件提升GPU推理的吞吐

    實踐中,唯品會 AI 平臺與 NVIDIA 團隊合作,結(jié)合 NVIDIA TensorRTNVIDIA Merlin Hierarc
    的頭像 發(fā)表于 04-20 09:39 ?834次閱讀

    使用NVIDIA Triton推理服務(wù)器來加速AI預(yù)測

    這家云計算巨頭的計算機視覺和數(shù)據(jù)科學(xué)服務(wù)使用 NVIDIA Triton 推理服務(wù)器來加速 AI 預(yù)測。
    的頭像 發(fā)表于 02-29 14:04 ?637次閱讀