伴隨高階自動(dòng)駕駛技術(shù)發(fā)展,智能汽車車載傳感器數(shù)量越來越多,自動(dòng)駕駛神經(jīng)網(wǎng)絡(luò)模型算法復(fù)雜度越來越高,相關(guān)功能也越來越豐富,感知算法也從傳統(tǒng)的2D視覺向更先進(jìn)的3D融合感知范式轉(zhuǎn)變,這在為客戶帶來更加安全的自動(dòng)駕駛體驗(yàn)的同時(shí),對(duì)開發(fā)效率提出了更高的挑戰(zhàn)。怎么降低模型優(yōu)化和適配的復(fù)雜性,提高開發(fā)效率和模型性能,已成為智能駕駛技術(shù)開發(fā)關(guān)鍵。
2024北京國際車展,黑芝麻智能展示了一套自研的開發(fā)工具BST-DAL(Deep-learning Acceleration Library),它是一個(gè)基于PyTorch的加速庫,支持在多種預(yù)訓(xùn)練模型上使用,旨在簡化復(fù)雜任務(wù)的模型適配和優(yōu)化,可顯著提高模型在華山、武當(dāng)系列SoC芯片上的運(yùn)行速度,用戶只需修改幾行代碼,提供一些基本的超參數(shù),就可實(shí)現(xiàn)在自己的原始訓(xùn)練環(huán)境中剪枝,降低整體開發(fā)成本。該庫支持模塊化設(shè)計(jì)和擴(kuò)展性,通過統(tǒng)一API,用戶只需少量代碼即可輕松集成到訓(xùn)練環(huán)境中。
多樣優(yōu)化,輕松部署,運(yùn)行效率提升
黑芝麻智能BST-DAL集成了多種優(yōu)化算法,包括剪枝、量化、訓(xùn)練、蒸餾和硬件匹配,支持主流模型結(jié)構(gòu)如CNN、Transformer等,涵蓋分類、檢測(cè)、語義分割等多種任務(wù)。在訓(xùn)練階段,BST-DAL可以自動(dòng)尋找最佳模型配置,一鍵完成剪枝和量化,支持混合加速引擎和復(fù)雜模型拓?fù)洌?/strong>其核心功能包含:
黑芝麻智能山海開發(fā)工具鏈
剪枝(Pruning): 集成先進(jìn)的SOTA剪枝算法,能夠自動(dòng)確定最優(yōu)剪枝策略,以滿足特定硬件需求,從而在保持模型精度的同時(shí)顯著減少計(jì)算和I/O開銷
量化(Quantization): 當(dāng)前車載領(lǐng)域深度學(xué)習(xí)模型復(fù)雜多變,在異構(gòu)硬件上量化繁瑣,部署過程中為了降低精度損失需投入大量精力。為了降低用戶量化部署開發(fā)成本,BST-DAL量化支持多引擎混合精度量化,用戶改動(dòng)極少代碼即可在訓(xùn)練環(huán)境中適配QAT功能
訓(xùn)練(Training):采用模塊化設(shè)計(jì),與PyTorch生態(tài)無縫對(duì)接,簡單易用,保證量化和剪枝后模型精度
蒸餾+硬件匹配(Distillation+Fitting): 結(jié)合蒸餾技術(shù)自動(dòng)搜索最優(yōu)輕量化模型結(jié)構(gòu),支持參數(shù)、layer剪枝和Transformer結(jié)構(gòu)輕量化
性能與精度兼得,開發(fā)效率優(yōu)化
黑芝麻智能BST-DAL深度學(xué)習(xí)加速庫工具,相比于眾多開源項(xiàng)目,擁有更快的收斂速度、更高的精度、更適應(yīng)芯片特性的加速算法、更簡便的API及更友好的用戶體驗(yàn)。
以華山系列A1000芯片為例為例,使用BST-DAL深度學(xué)習(xí)加速庫處理主流模型ResNet50、Yolov5和LaneAF,可以在保證剪枝后模型精度的同時(shí),減少超過20%的I/O數(shù)據(jù)流,提升模型性能。
同時(shí),使用BST-DAL的混合精度量化功能可以極大保證模型量化后精度,使其基本與原始浮點(diǎn)一致。
黑芝麻智能BST-DAL加速庫還有如下功能的亮點(diǎn);
集成多種SOTA優(yōu)化算法,在保證模型精度的同時(shí)提升模型性能,確保性能與精度兼得,使得模型在各種復(fù)雜任務(wù)和場景下都能表現(xiàn)出色。
DAL訓(xùn)練模型可實(shí)現(xiàn)最高可達(dá)10倍的性能提升,同時(shí)維持模型精度,為大模型訓(xùn)練和部署提供了更好的解決方案。
在PC端即可進(jìn)行模型精度驗(yàn)證,加速開發(fā)周期,開發(fā)者可以更快地進(jìn)行模型迭代和調(diào)試,從而加快了產(chǎn)品上市速度和響應(yīng)市場需求的能力 。
自動(dòng)化的模型配置搜索,簡化了優(yōu)化流程 ,降低了人工干預(yù)的需求,確保了模型的最佳性能和穩(wěn)定性。
基于靜態(tài)圖的QAT量化,只需少量代碼即可實(shí)現(xiàn),降低用戶使用量化工具的學(xué)習(xí)成本,提高了模型在嵌入式和移動(dòng)設(shè)備上的部署效率。
支持混合加速引擎,可一次性對(duì)多段模型進(jìn)行優(yōu)化,更好地適應(yīng)復(fù)雜任務(wù)和多模態(tài)數(shù)據(jù)處理需求 。
支持復(fù)雜的模型拓?fù)浣Y(jié)構(gòu),特別是Transformer模型。 黑芝麻智能BST-DAL為深度學(xué)習(xí)研究者和開發(fā)者提供了一個(gè)全面、高效的解決方案,顯著降低了模型優(yōu)化和適配的復(fù)雜性,同時(shí)提高了開發(fā)效率和模型性能。
全面賦能客戶,助力部署落地一體化流程
作為中國本土智能汽車芯片的供應(yīng)商之一,黑芝麻智能深知軟硬協(xié)同的重要性,以“芯片+開發(fā)工具鏈”的配套模式支持客戶提升研發(fā)效率,降低綜合成本,加速產(chǎn)品量產(chǎn)。工具鏈及軟件是否完善是體現(xiàn)自動(dòng)駕駛芯片易用性的重要指標(biāo)。配合華山系列自動(dòng)駕駛計(jì)算芯片,黑芝麻智能發(fā)布的山海開發(fā)工具鏈能夠提供全面的開發(fā)包及算法開發(fā)所需的可視化軟件工具,滿足模型量化、優(yōu)化、編譯、仿真、部署、調(diào)試等各個(gè)開發(fā)環(huán)節(jié)的需要,并納入深度學(xué)習(xí)參考模型庫轉(zhuǎn)換用例,大幅降低算法開發(fā)門檻,幫助客戶進(jìn)行靈活的模型遷移、部署和整合。目前,山海開發(fā)工具鏈已支持的算子數(shù)量已超過140個(gè)。
黑芝麻智能與合作伙伴最快僅耗時(shí)5周即完成了包含感知算法部署在內(nèi)的所有上車適配工作的聯(lián)合開發(fā),使用山海工具鏈可快速靈活適配第三方感知算法,配套技術(shù)開發(fā)團(tuán)隊(duì)也有效提升了產(chǎn)品落地速度。得益于自主研發(fā)的IP核與通用計(jì)算加速的設(shè)計(jì)理念,山海工具鏈在逐步支持BEV和Transformer模型的部署和硬件加速,以支撐目前行業(yè)對(duì)無高精地圖、城市領(lǐng)航等功能的迫切需求。
審核編輯:劉清
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4782瀏覽量
101220 -
自動(dòng)駕駛
+關(guān)注
關(guān)注
785文章
13942瀏覽量
167083 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5516瀏覽量
121597 -
車載傳感器
+關(guān)注
關(guān)注
0文章
44瀏覽量
4380 -
黑芝麻智能
+關(guān)注
關(guān)注
1文章
172瀏覽量
3380
原文標(biāo)題:黑芝麻智能BST-DAL深度學(xué)習(xí)加速庫:提升算法模型開發(fā)效率,釋放SOC極致性能
文章出處:【微信號(hào):BlackSesameTech,微信公眾號(hào):黑芝麻智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論