電子發(fā)燒友網(wǎng)報(bào)道(文/吳子鵬)近日,一款名為DUSt3R的AI新工具在GitHub上爆火。DUSt3R能夠在短短2秒鐘內(nèi)通過(guò)僅有2張圖片完成3D 重建,讓許多網(wǎng)友大呼驚奇,甚至認(rèn)為這比之前熱門(mén)的Sora更加實(shí)用。
有考古從業(yè)者稱(chēng),在考古現(xiàn)場(chǎng),構(gòu)建3D模型是非常必要且難度很大的工作,通過(guò)DUSt3R快速重建出土文物的3D形狀,是一個(gè)非常高效的方式。同時(shí),DUSt3R在游戲和建筑等領(lǐng)域也有非常多的應(yīng)用場(chǎng)景。
目前,DUSt3R在GitHub上的熱度非常高,已經(jīng)排名在GitHub熱榜的第二名。根據(jù)網(wǎng)友實(shí)測(cè),只需要拍攝兩張照片,DUSt3R就可以完成家庭廚房或者摩托車(chē)的3D建模,并且除了3D圖,還有深度圖、置信度圖和點(diǎn)云圖。
圖源:naverlabs.com
圖源:naverlabs.com
DUSt3R突破3D建模技術(shù)屏障
實(shí)際上,早在一兩年前GPT剛剛興起的時(shí)候,就有人討論過(guò)通過(guò)AI模型工具來(lái)完成3D建模,不過(guò)當(dāng)時(shí)的試驗(yàn)結(jié)果表明,這是一項(xiàng)非常難的工作。
根據(jù)當(dāng)時(shí)的討論,AIGC用于3D內(nèi)容生成,主要有三個(gè)方面的挑戰(zhàn)。其一是原始訓(xùn)練素材庫(kù)需要比較高質(zhì)量的2D圖片,且需要的數(shù)量比較大,并輔助大量的計(jì)算資源來(lái)配合。不過(guò),受限于當(dāng)時(shí)的算法模型,最終出來(lái)的效果都不太好。
其二是算法模型本身,在GPT熱潮初期,文生文,以及文生圖,都是2D層面的探索,生成復(fù)雜的3D模型需要更加復(fù)雜的算法。有算法工程師指出,這是完全不一樣的算法模型,需要從底層重新梳理。
其三是質(zhì)量缺陷。基于當(dāng)時(shí)的算法和算力設(shè)施,生成3D模型并非不能完成的任務(wù),不過(guò)完成的質(zhì)量是非常糟糕的,需要進(jìn)行大量的后期處理和優(yōu)化,往往這個(gè)修復(fù)的工作量是超出傳統(tǒng)建模的工作量的。
隨后產(chǎn)業(yè)界也有很多嘗試,比如GET3D和3D-GAN等工具可以生成網(wǎng)格(Mesh)的3D模型,這些工具大部分在 ShapeNet等3D數(shù)據(jù)集上進(jìn)行訓(xùn)練,具有一定的質(zhì)量,不過(guò)基本是單體建模,且復(fù)雜度不高。目前,有很多3D工具是基于differentiable rasterizer基礎(chǔ)算法的。
在OpenAI的工具體系中,OpenAI Point·E其實(shí)也是一款3D生成工具,不過(guò)并不是原生的3D,而是從2D升維到3D,也就是先通過(guò)文字提示借助2D diffusion 模型生成2D圖像,然后用3D點(diǎn)云的diffusion模型對(duì)圖片進(jìn)行升維。谷歌的DreamFusion和英偉達(dá)的Magic3D也是屬于這個(gè)類(lèi)型。
當(dāng)然,上述工具都有一個(gè)通病,那就是幾乎都需要半小時(shí)以上的時(shí)間才能夠完成復(fù)雜3D模型的建立,和DUSt3R之間有很大的差距。
據(jù)悉,DUSt3R帶來(lái)了一個(gè)3D模型生成的新范式,不需要任何相機(jī)校準(zhǔn)或視點(diǎn)姿勢(shì)的先驗(yàn)信息,就可完成任意圖像的密集或無(wú)約束3D重建。傳統(tǒng)的3D AI工具,通常需要MVS估計(jì)相機(jī)參數(shù),并在3D空間中對(duì)相應(yīng)的像素進(jìn)行三角測(cè)量。不過(guò),DUSt3R并不需要這些。如下圖所示,DUSt3R能夠基于一組具有未知相機(jī)姿態(tài)和內(nèi)在特征的照片,生成對(duì)應(yīng)的一組點(diǎn)圖,并給出相機(jī)參數(shù)、像素對(duì)應(yīng)關(guān)系、深度圖等重要參數(shù)。因此這款工具不僅降低了輸入數(shù)據(jù)的門(mén)檻,同時(shí)讓輸出數(shù)據(jù)質(zhì)量大幅提升,輸出數(shù)據(jù)需要的時(shí)間大幅縮短。
圖源:naverlabs.com
DUSt3R論文作者表示,DUSt3R統(tǒng)一了單圖3D生成和雙圖3D生成的技術(shù)路徑,在提供兩個(gè)以上圖像的情況下,DUSt3R帶來(lái)了更加有效的全局對(duì)齊策略,該策略在一個(gè)共同的參考框架中展現(xiàn)出所有成對(duì)的點(diǎn)云圖。
綜合而言,DUSt3R具備以下幾個(gè)特點(diǎn):支持多視圖立體重建,無(wú)需相機(jī)校準(zhǔn)信息,支持更加有效的全局對(duì)齊策略,提供3D模型和深度信息,并可以恢復(fù)像素匹配和相機(jī)信息,無(wú)疑這是一款強(qiáng)大的3D AI工具。
更重要的是,DUSt3R基于標(biāo)準(zhǔn)的變壓器編碼器和解碼器就可以工作,讓用戶(hù)能夠更加容易地利用這個(gè)強(qiáng)大的3D AI工具。如果DUSt3R能夠順利落地,那么醫(yī)療、游戲、影視、建筑、產(chǎn)品設(shè)計(jì)和虛擬現(xiàn)實(shí)等領(lǐng)域?qū)⒋蟠笫芤妗?br />
國(guó)產(chǎn)公司在3D AI中的機(jī)會(huì)
DUSt3R強(qiáng)大的性能讓很多網(wǎng)友直呼:忘掉Sora吧,DUSt3R才是未來(lái)。實(shí)際上,這確實(shí)也是AI大模型一個(gè)迭代的方向。從ChatGPT代表的文生文,到DALL?E代表的文生圖,再到Sora代表的文生視頻,多模態(tài)大模型的發(fā)展方向就是不斷挖掘多模態(tài)大模型的潛力,生成更加復(fù)雜的信息。中泰證券在相關(guān)文章中直言,繼文本、代碼、圖片、視頻之后,下一個(gè)有可能實(shí)現(xiàn)突破的模態(tài)大概率是3D,“SORA之后的下一步:文生3D”。
那么,面對(duì)市場(chǎng)大趨勢(shì),國(guó)內(nèi)公司該如何捕捉商機(jī)呢?匯總多份3D AI研報(bào)可以發(fā)現(xiàn),國(guó)內(nèi)目前在文生3D方面具有一定的技術(shù)儲(chǔ)備,也有一些代表公司。
比如掌趣科技,該公司是一家提供3D引擎的公司。2023年11月,掌趣科技與LAYABOX達(dá)成戰(zhàn)略合作協(xié)議。雙方將共同致力于打造一款具有創(chuàng)新意義的AI游戲引擎,為廣大游戲開(kāi)發(fā)者提供更加智能、自動(dòng)化的解決方案,推動(dòng)游戲產(chǎn)業(yè)技術(shù)革新,共建高質(zhì)量的AIGC開(kāi)發(fā)生態(tài)體系。而游戲是3D模型重要的應(yīng)用領(lǐng)域。
還有凡拓?cái)?shù)創(chuàng)、絲路視覺(jué)、風(fēng)語(yǔ)筑等3D內(nèi)容提供商,也有一定的技術(shù)儲(chǔ)備。以凡拓?cái)?shù)創(chuàng)為例,該公司以“AI+3D”為方向,致力于展館數(shù)字化革新,結(jié)合數(shù)字技術(shù)與文化創(chuàng)意, 以總體設(shè)計(jì)、3D數(shù)字內(nèi)容制作、軟件開(kāi)發(fā)、系統(tǒng)集成等數(shù)字展館一體化服務(wù),未來(lái)AIGC、AI算法、BI大數(shù)據(jù)、WEB3D等前沿技術(shù)是凡拓?cái)?shù)創(chuàng)的技術(shù)方向,數(shù)字孿生、虛擬人、知識(shí)圖譜等產(chǎn)品則是產(chǎn)品方向。
另外,像恒信東方已經(jīng)開(kāi)始嘗試將GPT、擴(kuò)散模型應(yīng)用與2D概念設(shè)計(jì)和分鏡工作流、3D引擎和其他制作工具API融入3D內(nèi)容創(chuàng)作,也有文生3D方面的技術(shù)儲(chǔ)備。
除了上述有望直接參與文生3D落地的,國(guó)內(nèi)在CAX領(lǐng)域、BIM領(lǐng)域的相關(guān)公司也有望從潮流中受益,比如中望軟件、索辰科技、浩辰軟件等CAX工具服務(wù)商,可以給相關(guān)產(chǎn)品帶來(lái)專(zhuān)業(yè)的技術(shù)支持。
結(jié)語(yǔ)
DUSt3R驚艷的面世,讓我們進(jìn)一步見(jiàn)識(shí)了多模態(tài)大模型的實(shí)力,繼文本、代碼、圖片、視頻之后,文生3D是重要的產(chǎn)業(yè)發(fā)展方向,賦能醫(yī)療、游戲、影視、建筑、產(chǎn)品設(shè)計(jì)和虛擬現(xiàn)實(shí)等領(lǐng)域發(fā)展。對(duì)于國(guó)內(nèi)公司而言,目前基本處于市場(chǎng)外圍,還需要進(jìn)一步實(shí)現(xiàn)核心技術(shù)攻關(guān)。
-
3D
+關(guān)注
關(guān)注
9文章
2910瀏覽量
107924
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論