国产精品无码av在线导航,国产精品久久久久精品综合紧

編者按：近日，影視后期特效網(wǎng)站FXGuide在文章中介紹了一種用機器學習進行3D實時渲染的新方法，在手機中安裝相關(guān)軟件后，用戶可以實現(xiàn)臉部即時卡通化，或是把自己的動態(tài)表情轉(zhuǎn)移到別人的臉上。這項技術(shù)來自AI創(chuàng)企Pinscreen，但不久前，它的首席執(zhí)行官/聯(lián)合創(chuàng)始人卻陷入了一場頗為轟動的學術(shù)丑聞……

SIGGRAPH是計算圖形學的年度頂級會議，發(fā)展至今，它已經(jīng)成為全球最負盛名的的CG展示、學術(shù)研討會——除了論文展示環(huán)節(jié)，以電影、游戲為代表的工業(yè)界也會爭相展示最新技術(shù)，比如今年與會的暴雪娛樂和皮克斯，可想而知，它的熱鬧程度完全不亞于任何大型博覽會。

今年的SIGGRAPH將在8月12日召開，為期5天。作為計算圖形學最重要的會議，隨著近年來AI熱度的不斷上升，和計算機視覺一樣，SIGGRAPH的機器學習論文占比也屢破新高，這片圖形學的圣域大有“淪陷”趨勢。

而Pinscreen將在Real Time Live活動中展示的正是一項機器學習成果：paGAN。

學術(shù)造假丑聞

說到這家公司，就不得不提它的首席執(zhí)行官/聯(lián)合創(chuàng)始人——黎顥。這是個在南加州大學任教的華人教授，他是SIGGRAPH的?？停苍晃④泴W術(shù)搜索評為“過去5年計算機圖形學領(lǐng)域十大影響力學者”，在業(yè)內(nèi)有相當?shù)?a target="_blank">知名度和威望。

黎顥

但二十幾天前，他的前雇員Iman Sadeghi博士卻向他發(fā)起指控。在遞交給法院的報告中，Iman Sadeghi列出了黎顥的幾大罪狀：1）用人工繪制圖像假冒AI作品，并在SIGGRAPH上展示“成果”；2）用技術(shù)“成果”欺騙投資人；3）惡意解雇并毆打Sadeghi博士。

這個消息立即在學界引起軒然大波，畢竟如此惡劣的學術(shù)不端行為還是很少見的。但隨著輿論持續(xù)發(fā)酵，一些關(guān)于Sadeghi博士的負面消息也出現(xiàn)了：1）入職后基本不工作，老是不見人影；2）試圖搶奪公司財產(chǎn)，刪除重要數(shù)據(jù)；3）毆打勸阻的女員工。

當然，以上只是他們的一面之詞，最終結(jié)果還是要交給加州法院定奪。作為旁觀者，我們無需也無法作出判斷。綜觀此次Pinscreen的展示內(nèi)容預(yù)告，我們發(fā)現(xiàn)它和訴訟報告中提到的很不一樣，所以覺得有介紹的必要。至于這個成果是不是“造假”得來的，還有待時間檢驗。

用paGAN實現(xiàn)3D實時渲染

在介紹技術(shù)前，我們先來看看paGAN的具體效果。

下圖的左側(cè)是FXGuide編輯Mike Seymour用iPhone拍攝的源視頻，右側(cè)是實時渲染CGI?？梢园l(fā)現(xiàn)，Pinscreen的成果確實可以在同一源視頻上進行數(shù)字化構(gòu)圖，為真實人臉生成3D數(shù)字掩模。除了混合邊緣上的小調(diào)整，整個過程已經(jīng)基本實現(xiàn)自動化。

在渲染過程中，皺紋等細節(jié)的處理通常比較困難。如上圖所示，雖然軟件沒能準確重現(xiàn)每一條皺紋及其深淺程度，但右圖中的皺紋還是非常連貫，沒有出現(xiàn)參差錯落的情況。根據(jù)Pinscreen的說法，這些都是自動生成的。

上圖是Sadeghi博士在訴訟報告中展示的學術(shù)造假示例。據(jù)網(wǎng)友實驗，Pinscreen當前版本的APP在處理肩部以下頭發(fā)時效果很差，對比Haley Dunphy那一頭金發(fā)（這是2017年提交給SIGGRAPH的成果），因此很多人認為他提出的“頭發(fā)為人工制作”的說法是可信的。

但去年這個效果似乎和Mike Seymour的最新實驗有很大差距，具體我們可以等新版軟件發(fā)布再去驗證。

1. 用單張jpeg構(gòu)建面部

如果要生成卡通化的3D人臉，首先我們要構(gòu)建3D模型。Pinscreen現(xiàn)在使用的技術(shù)是基于單張Jpeg圖像構(gòu)建3D臉部模型，具體方法是靠“猜”，也就是先制作合理的3D網(wǎng)格，然后對輸入圖像和3D形狀執(zhí)行形狀匹配和角度變換。

事實上，除了Pinscreen，其他公司也用機器學習實現(xiàn)了這一技術(shù)，它們的商業(yè)模式也基于這種創(chuàng)新。但Pinscreen的優(yōu)勢是處理效果更好，目標更長遠——開發(fā)直接面向用戶的端到端解決方案。

2. 每秒1000幀的臉部跟蹤

獲得模型后，下一步就是追蹤人臉位置和細節(jié)狀態(tài)，保證模型的實時更新。據(jù)介紹，目前Pinscreen開發(fā)的最強大的臉部追蹤器是VGPT（Veli Goodo Pace Tracka），這也是他們即將在SIGGRAPH上實時演示的重要內(nèi)容。

VGPY是一個基于深度學習的輕量級網(wǎng)絡(luò)，本身只有5M。不同于傳統(tǒng)追蹤器，它既不追蹤特征，也不追蹤標記，而是基于直接推斷。具體而言，人類的臉部大同小異，以往我們使用的方法是在上面標記一些關(guān)鍵特征點，然后在統(tǒng)計的基礎(chǔ)上利用特征點來定位對齊。但根據(jù)黎顥介紹，VGPY使用的是3D高精度頭部模型、微表情測量工具FACS等工具，速度比AAM算法快很多。

這個追蹤器的速度也十分驚人。如果是在顯卡為1080P的PC上，VGPY的幀數(shù)高達1000；如果是在手機上，它的速度也有60到90 fps。雖然是快速無標記追蹤，但VGPY可以始終保持高性能和高穩(wěn)健性。當追蹤對象經(jīng)過遮擋物時，它會在短時間內(nèi)重新獲取面部并繼續(xù)工作。

3D人臉是左側(cè)圖像的，但臉部的動態(tài)是黎顥的（6個月前的成果）

3. paGAN

paGAN的全稱是Photoreal Avatar Generative Adversarial Network，它充當整個系統(tǒng)中的“渲染器”。

渲染通常是繪圖的最后一步。就目前的傳統(tǒng)方法來看，如果我們要對頭像或人進行建模、添加紋理、調(diào)節(jié)明暗和圖像渲染，大量高質(zhì)量數(shù)據(jù)是必須的。這通常意味著準備多幅圖像，測量各個角度，進行高質(zhì)量掃描，等到一切都準備好，我們才能在3D網(wǎng)格上添加各種紋理、凹凸貼圖，鏡面反射貼圖等。除了著色器，我們還需要一個高質(zhì)量渲染算法。

雖然進程安排存在先后，但上述內(nèi)容都息息相關(guān)，而現(xiàn)實中承擔這些工作的通常是經(jīng)驗豐富的工作人員和藝術(shù)家。這也意味著誰投入資源多，誰就做得好，這種由技術(shù)門檻帶來的不公平給電影、游戲工業(yè)帶去了不少困擾。

為了解決這個問題，Pinscreen團隊跳過傳統(tǒng)方法，他們采取的第一種做法是不使用建模/紋理/照明和渲染管道，而是如下圖所示，直接將面部采樣點重新上色、復(fù)原、旋轉(zhuǎn)并放置在模擬的3D環(huán)境中，就像3D CGI頭一樣。

但這種方法失敗了，因為復(fù)原的頭像無法正確定位，也不能完全動畫化。由于實際上只是把照片投影在匹配的幾何體上，它只能在靜態(tài)時實現(xiàn)高保真。

經(jīng)歷了失敗后，Pinscreen把目光轉(zhuǎn)向最先進的深度生成模型——GAN。這是一種非常特殊的深度學習網(wǎng)絡(luò)，它已經(jīng)被證明能生成逼真的2D圖像。黎顥和他的團隊希望能用GAN代替?zhèn)鹘y(tǒng)做法，實現(xiàn)正確角度“渲染”。

GAN是Ian Goofellow于2014年提出的一種神經(jīng)網(wǎng)絡(luò)，它包含一個生成器G和一個判定器D。其中G從潛在空間隨機采樣，把采樣得到的樣本作為輸入，目標是輸出類似真實數(shù)據(jù)的數(shù)據(jù)；而D的輸入是G的輸出，它負責鑒定這個生成的偽數(shù)據(jù)和真實數(shù)據(jù)像不像，然后把分類結(jié)果饋送給G，讓它積累“作假”經(jīng)驗。

當用于面部時，原始GAN的問題在于輸出的是個2D圖像，而且非常難控制。最后，Pinscreen團隊做出了取舍，他們?yōu)閜aGAN制定的目標是生成高度逼真的眼部和嘴部渲染。而根據(jù)最終結(jié)果，GAN確實在嘴部運動和舌頭運動上表現(xiàn)出色。

4. 重新定位

之前提到了，Pinscreen的3D臉部模型來自單張jepg，而它的表情則完全來自另一人，所以最后生成的表情動畫不會和jepg有什么外觀上的出入，十分自然，十分逼真。

如上圖所示，第一行是建模的圖像，第一列是表情來源，中間生成的表情都很自然。這里需要注意一點，Pinscreen的人臉追蹤器VGPY只檢測了圖中亞洲男子的微表情，它沒有對靜態(tài)圖像jepg做任何掃描，這意味著這些富有表現(xiàn)力的表情都是直接從表情源直接轉(zhuǎn)移到目標人臉上的。

其他細節(jié)

除了上文提到的內(nèi)容，黎顥也用自己積累的經(jīng)驗做了不少優(yōu)化工作，比如paGAN面不僅能夠從任何角度“渲染”，也能根據(jù)所需的環(huán)境明暗條件進行渲染。

提起訴訟的Sadeghi博士是毛發(fā)渲染領(lǐng)域的專家，但如果本文演示圖片屬實，那么在他離職后，Pinscreen確實在頭發(fā)上也進步明顯。而根據(jù)黎顥的說法，他的團隊這次使用的是一個端到端的神經(jīng)網(wǎng)絡(luò)新系統(tǒng)，可以始終根據(jù)訓練數(shù)據(jù)生成合理的頭發(fā)模型。

看到這里，相信很多人已經(jīng)開始期待他們的新版APP。但大家請注意，以上圖像都是在PC上生成的，如果是手機，效果會差那么一點兒。

這是軟件在手機上的效果，考慮到硬件差距，這個效果其實完全可以接受。

生成3D手機視頻聊天頭像

具體效果

而開發(fā)了這項技術(shù)后，Pinscreen首先瞄準的目標是實現(xiàn)3D視頻通訊。黎顥認為，現(xiàn)如今3D游戲越來越多，而人們在其中扮演的也都是3D的角色，這說明3D是發(fā)展趨勢。未來，當技術(shù)發(fā)展得足夠成熟后，也許打開手機，我們面對不再是一個2D小人，而是一個立體化的真人形象。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴