欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DeepMind生成查詢(xún)網(wǎng)絡(luò)GQN,從一個(gè)場(chǎng)景的少量2D照片中重新生成3D

DPVg_AI_era ? 來(lái)源:未知 ? 作者:李倩 ? 2018-07-03 10:26 ? 次閱讀

DeepMind今天在Science發(fā)表論文,提出生成查詢(xún)網(wǎng)絡(luò)(Generative Query Network,GQN),能夠在無(wú)監(jiān)督的情況下,抽象地描述場(chǎng)景元素,并通過(guò)“想象”渲染出場(chǎng)景中沒(méi)有見(jiàn)到的部分。這項(xiàng)工作展示了沒(méi)有人類(lèi)標(biāo)簽或領(lǐng)域知識(shí)的表示學(xué)習(xí),為機(jī)器自動(dòng)學(xué)習(xí)并理解周?chē)澜玟伷搅说缆贰?/p>

DeepMind又有大動(dòng)作,早上起來(lái)便看到Hassabis的推文:

一直以來(lái),我對(duì)大腦是如何在腦海中構(gòu)建圖像的過(guò)程深感著迷。我們最新發(fā)表在Science的論文提出了生成查詢(xún)網(wǎng)絡(luò)(GQN):這個(gè)模型能從一個(gè)場(chǎng)景的少量2D照片中重新生成3D表示,并且能從新的攝像頭視角將它渲染出來(lái)。

Hassabis在接受《金融時(shí)報(bào)》采訪時(shí)表示,GQN能夠從任何角度想象和呈現(xiàn)場(chǎng)景,是一個(gè)通用的系統(tǒng),具有廣泛的應(yīng)用潛力。

如果說(shuō)新智元昨天介紹的DeepMind那篇有關(guān)圖網(wǎng)絡(luò)的論文重磅,那么這篇最新的Science更顯分量。

“此前我們不知道神經(jīng)網(wǎng)絡(luò)能否能學(xué)會(huì)以如此精確和可控的方式來(lái)創(chuàng)建圖像,”DeepMind的研究員、論文的第一作者Ali Eslami表示:“但是,這次我們發(fā)現(xiàn)具有足夠深度的網(wǎng)絡(luò),可以在沒(méi)有任何人類(lèi)工程干預(yù)的情況下,學(xué)習(xí)透視和光線。這是一個(gè)非常驚人的發(fā)現(xiàn)。”

DeepMind最新發(fā)表在Science上的論文《神經(jīng)場(chǎng)景表示和渲染》。包括老板Demis Hassabis在內(nèi),一共22名作者。本著開(kāi)源共享的精神,文章以公開(kāi)獲取的形式在Science發(fā)表。

這篇文章的意義在于,提出了一種無(wú)監(jiān)督的方法,不依賴(lài)帶標(biāo)記的數(shù)據(jù),而且能夠推廣到各種不同的場(chǎng)景中。過(guò)去的計(jì)算機(jī)視覺(jué)識(shí)別任務(wù),通常是建立在大量有標(biāo)記的數(shù)據(jù)基礎(chǔ)上,不僅標(biāo)記這些數(shù)據(jù)麻煩,標(biāo)記好的數(shù)據(jù)還可能帶有偏見(jiàn),最重要的是,已經(jīng)有越來(lái)越多的研究者意識(shí)到,由于測(cè)試集過(guò)擬合的問(wèn)題,很多分類(lèi)器的魯棒性亟待提高。

DeepMind的這套視覺(jué)系統(tǒng),也即生成查詢(xún)網(wǎng)絡(luò)(GQN),使用從不同視角收集到的某個(gè)場(chǎng)景的圖像,然后生成關(guān)于這個(gè)場(chǎng)景的抽象描述,通過(guò)一個(gè)無(wú)監(jiān)督的表示學(xué)習(xí)過(guò)程,學(xué)習(xí)到了場(chǎng)景的本質(zhì)。之后,在學(xué)到的這種表示的基礎(chǔ)上,網(wǎng)絡(luò)會(huì)預(yù)測(cè)從其他新的視角看這個(gè)場(chǎng)景將會(huì)是什么樣子。這一過(guò)程非常類(lèi)似人腦中對(duì)某個(gè)場(chǎng)景的想象。而理解一個(gè)場(chǎng)景中的視覺(jué)元素是典型的智能行為。

雖然還有諸多局限,但DeepMind的這項(xiàng)工作,在此前許許多多相關(guān)研究的基礎(chǔ)上更進(jìn)一步,展示了我們?cè)谧寵C(jī)器“理解世界”的道路上,邁出了堅(jiān)實(shí)一步。

下面是DeepMind今天發(fā)表的官方博文,論文的聯(lián)合第一作者S. M. Ali Eslami和Danilo Jimenez Rezende對(duì)這項(xiàng)工作進(jìn)行了解讀。

《神經(jīng)場(chǎng)景表示和渲染》的研究背景

當(dāng)談到我們?nèi)祟?lèi)如何理解一個(gè)視覺(jué)場(chǎng)景時(shí),涉及的不僅僅是視覺(jué):我們的大腦利用先驗(yàn)知識(shí)進(jìn)行推理,并做出遠(yuǎn)遠(yuǎn)超出光線的模式的推斷。例如,當(dāng)你第一次進(jìn)入一個(gè)房間時(shí),你能夠立即識(shí)別出房間里的物品以及它們的位置。如果你看到一張桌子的三條腿,你會(huì)推斷,可能存在第四條桌子腿從你的視線中隱藏了,它的顏色和形狀應(yīng)該與其他三條腿相同。即使你看不到房間里的所有東西,你也很可能勾畫(huà)出它的布局,或者從另一個(gè)角度想象它的樣子。

這些視覺(jué)和認(rèn)知任務(wù)對(duì)人類(lèi)來(lái)說(shuō)似乎毫不費(fèi)力,但它們對(duì)我們的AI系統(tǒng)來(lái)說(shuō)是一個(gè)重大挑戰(zhàn)。今天,最先進(jìn)的視覺(jué)識(shí)別系統(tǒng)都是用人類(lèi)產(chǎn)生的帶注釋圖像的大型數(shù)據(jù)集訓(xùn)練的。獲取這些數(shù)據(jù)是一個(gè)昂貴而且耗時(shí)的過(guò)程,需要有人對(duì)數(shù)據(jù)集中每個(gè)場(chǎng)景的每個(gè)對(duì)象進(jìn)行標(biāo)記。因此,通常只能捕獲整體場(chǎng)景的一小部分內(nèi)容,這限制了用這些數(shù)據(jù)進(jìn)行訓(xùn)練的人工視覺(jué)系統(tǒng)。

當(dāng)我們開(kāi)發(fā)出在現(xiàn)實(shí)世界運(yùn)行的更復(fù)雜的機(jī)器時(shí),我們希望機(jī)器能充分了解它們所處的環(huán)境:可以坐的最近的表面在哪里?沙發(fā)是什么料子的?所有的陰影都是哪些光源產(chǎn)生的?電燈的開(kāi)關(guān)可能在哪里?

論文一作S. M. Ali Eslami解讀

在這篇發(fā)表于《科學(xué)》(Science)的最新論文中,我們提出生成查詢(xún)網(wǎng)絡(luò)(Generative Query Network,GQN)。在這個(gè)框架中,機(jī)器學(xué)習(xí)只使用它們?cè)趫?chǎng)景中移動(dòng)時(shí)所獲得的數(shù)據(jù)進(jìn)行訓(xùn)練,從而感知周?chē)沫h(huán)境。

就像嬰兒和動(dòng)物一樣,GQN通過(guò)嘗試?yán)斫馑鼘?duì)周?chē)澜绲挠^察來(lái)學(xué)習(xí)。在這樣做的過(guò)程中,GQN了解了似乎合理的場(chǎng)景及其幾何屬性,而沒(méi)有任何人類(lèi)來(lái)對(duì)場(chǎng)景內(nèi)容進(jìn)行標(biāo)注。

GQN:僅使用從場(chǎng)景中感知到的數(shù)據(jù)做訓(xùn)練

GQN模型由兩個(gè)部分組成:表示網(wǎng)絡(luò)(representation network)和生成網(wǎng)絡(luò)(generation network)。表示網(wǎng)絡(luò)將agent的觀察結(jié)果作為輸入,并生成一個(gè)描述基礎(chǔ)場(chǎng)景的表示(向量)。然后,生成網(wǎng)絡(luò)從先前未觀察到的角度來(lái)預(yù)測(cè)(“想象”)場(chǎng)景。

Agent從不同視角觀察訓(xùn)練場(chǎng)景

表示網(wǎng)絡(luò)不知道生成網(wǎng)絡(luò)被要求預(yù)測(cè)哪些視點(diǎn),所以它必須找到一種有效的方式來(lái)盡可能準(zhǔn)確地描述場(chǎng)景的真實(shí)布局。為了實(shí)現(xiàn)這個(gè)目的,表示網(wǎng)絡(luò)以一種簡(jiǎn)潔的分布式表示來(lái)捕獲最重要的元素(如對(duì)象位置、顏色和房間布局)。

在訓(xùn)練過(guò)程中,生成器學(xué)習(xí)環(huán)境中的典型對(duì)象、特征、關(guān)系和規(guī)則。這種共享的“概念”集合使表示網(wǎng)絡(luò)能夠以高度壓縮、抽象的方式描述場(chǎng)景,讓生成網(wǎng)絡(luò)在必要時(shí)填充細(xì)節(jié)。

例如,表示網(wǎng)絡(luò)會(huì)簡(jiǎn)潔地將“藍(lán)色立方體”表示為一組數(shù)字,而生成網(wǎng)絡(luò)將會(huì)知道如何以特定的視點(diǎn)將其顯示為像素。

四大重要特性:能夠“想象出”沒(méi)有觀察過(guò)的場(chǎng)景

我們?cè)?a href="http://www.delux-kingway.cn/analog/" target="_blank">模擬的3D世界的一系列程序生成環(huán)境中,對(duì)GQN進(jìn)行了受控實(shí)驗(yàn)。這些環(huán)境包含多個(gè)物體,它們的位置、顏色、形狀和紋理都是隨機(jī)的,光源也是隨機(jī)的,而且會(huì)被嚴(yán)重遮擋。

在這些環(huán)境中進(jìn)行訓(xùn)練后,我們使用GQN的表示網(wǎng)絡(luò)來(lái)形成新的、以前未觀察到的場(chǎng)景的表示。我們的實(shí)驗(yàn)表明,GQN具有以下幾個(gè)重要特性:

GQN的生成網(wǎng)絡(luò)能夠以非常精確的方式從新的視角“想象”先前未觀察到的場(chǎng)景。當(dāng)給定一個(gè)場(chǎng)景表示和新的攝像機(jī)視點(diǎn)時(shí),它會(huì)生成清晰的圖像,而不需要事先說(shuō)明透視、遮擋或燈光的規(guī)范。因此,生成網(wǎng)絡(luò)是一種從數(shù)據(jù)中學(xué)習(xí)的近似渲染器(approximate renderer):

GQN的表示網(wǎng)絡(luò)可以學(xué)會(huì)對(duì)對(duì)象進(jìn)行計(jì)數(shù)、定位和分類(lèi),無(wú)需任何對(duì)象級(jí)標(biāo)簽。盡管GQN的表示可能非常小,但是它在查詢(xún)視點(diǎn)(query viewpoints)上的預(yù)測(cè)是高度準(zhǔn)確的,與ground-truth幾乎無(wú)法區(qū)分。這意味著表示網(wǎng)絡(luò)能夠準(zhǔn)確地感知,例如識(shí)別構(gòu)成以下場(chǎng)景的塊的精確配置:

GQN可以表示、測(cè)量和減少不確定性。即使內(nèi)容不完全可見(jiàn),它也能對(duì)場(chǎng)景的不確定性進(jìn)行解釋?zhuān)⑶铱梢詫?chǎng)景的多個(gè)局部視圖組合成一個(gè)連貫的整體視圖。如下圖所示,這是由其第一人稱(chēng)(first-person)和自上而下的預(yù)測(cè)(top-down predictions)顯示的。模型通過(guò)其預(yù)測(cè)的可變性來(lái)表示不確定性,不確定性隨著其在迷宮中移動(dòng)而逐漸減?。ɑ疑淖刁w指示觀察位置,黃色椎體指示查詢(xún)位置):

GQN的表示允許穩(wěn)健的、數(shù)據(jù)有效(data-efficient)的強(qiáng)化學(xué)習(xí)。當(dāng)給定GQN的緊湊表示時(shí),與無(wú)模型基線agent相比, state-of-the-art的深度強(qiáng)化學(xué)習(xí)agent能夠以更高的數(shù)據(jù)效率方式完成任務(wù),如下圖所示。對(duì)于這些agent,生成網(wǎng)絡(luò)中編碼的信息可以被看作是對(duì)環(huán)境的“先天”知識(shí):

圖:使用GQN,我們觀察到數(shù)據(jù)效率更高的策略學(xué)習(xí)(policy learning),與使用原始像素的標(biāo)準(zhǔn)方法相比,其獲得收斂級(jí)性能的交互減少了約4倍。

未來(lái)方向

GQN建立在此前大量相關(guān)工作的基礎(chǔ)上,包括多視圖幾何、生成建模、無(wú)監(jiān)督學(xué)習(xí)和預(yù)測(cè)學(xué)習(xí),我們?cè)谡撐闹杏性敿?xì)討論。

GQN演示了一種學(xué)習(xí)緊湊的、基礎(chǔ)的物理場(chǎng)景表示的新方法。關(guān)鍵的是,我們提出的方法不需要專(zhuān)用領(lǐng)域工程(domain-specific engineering)或耗時(shí)的場(chǎng)景內(nèi)容標(biāo)記,從而允許將相同的模型應(yīng)用于各種不同的環(huán)境。GQN還學(xué)會(huì)了一個(gè)強(qiáng)大的神經(jīng)渲染器,能夠從新的視角生成精確的場(chǎng)景圖像。

與更傳統(tǒng)的計(jì)算機(jī)視覺(jué)技術(shù)相比,我們的方法仍然有許多限制,目前只有接受過(guò)合成場(chǎng)景的訓(xùn)練。然而,隨著獲得更多新的數(shù)據(jù)源,以及硬件功能的進(jìn)展,我們期望能夠探索GQN框架在更高分辨率的真實(shí)場(chǎng)景圖像中的應(yīng)用。在未來(lái)的工作中,我們將探索GQN在場(chǎng)景理解的更廣泛方面的應(yīng)用,例如通過(guò)查詢(xún)跨空間和時(shí)間學(xué)習(xí)物理和運(yùn)動(dòng)的常識(shí)概念,以及虛擬和增強(qiáng)現(xiàn)實(shí)中的應(yīng)用。

盡管在我們的方法在投入實(shí)用前還有很多研究需要完成,但我們相信這項(xiàng)工作是邁向完全自主場(chǎng)景理解的一大步。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:【Science重磅】DeepMind生成查詢(xún)網(wǎng)絡(luò)GQN,無(wú)監(jiān)督學(xué)習(xí)展現(xiàn)3D場(chǎng)景

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    視覺(jué)處理,2d照片轉(zhuǎn)3d模型

    首先,太陽(yáng)高度是恒定的。 照片每像素的亮度可求。我們只需要求出太陽(yáng)與眼睛到物體的夾角就能求出3d模型。 最多就是各種物質(zhì)的反射率。 英偉達(dá)的oir芯片就是做汽車(chē)視覺(jué)的,大家去取取經(jīng)。 有時(shí),2-3張位置不同的
    發(fā)表于 05-21 17:13

    Google AI子公司開(kāi)發(fā)出個(gè)神經(jīng)網(wǎng)絡(luò)GQN,其組成部分介紹

    Google AI 子公司 DeepMind 開(kāi)發(fā)出個(gè)神經(jīng)網(wǎng)絡(luò),能根據(jù)2D 圖像“想象出
    的頭像 發(fā)表于 06-29 16:54 ?6933次閱讀
    Google AI子公司開(kāi)發(fā)出<b class='flag-5'>一</b><b class='flag-5'>個(gè)</b>神經(jīng)<b class='flag-5'>網(wǎng)絡(luò)</b><b class='flag-5'>GQN</b>,其組成部分介紹

    人工智能系統(tǒng)VON,生成最逼真3D圖像

    研究團(tuán)隊(duì)寫(xiě)道:“我們的關(guān)鍵思想是將圖像生成過(guò)程分解為三個(gè)要素:形狀、視角和紋理,這種分離的3D表示方式使我們能夠在對(duì)抗學(xué)習(xí)框架下從3D2D
    的頭像 發(fā)表于 12-07 09:28 ?7825次閱讀

    谷歌研究人員利用3D卷積網(wǎng)絡(luò)打造視頻生成新系統(tǒng)

    這套AI系統(tǒng)包括個(gè)完全卷積模型,這是是受動(dòng)物視覺(jué)皮層啟發(fā)打造的深度神經(jīng)網(wǎng)絡(luò),最常用于分析視覺(jué)圖像。它由三個(gè)部分組成:2D卷積圖像解碼器,
    的頭像 發(fā)表于 06-02 09:30 ?3358次閱讀
    谷歌研究人員利用<b class='flag-5'>3D</b>卷積<b class='flag-5'>網(wǎng)絡(luò)</b>打造視頻<b class='flag-5'>生成</b>新系統(tǒng)

    谷歌發(fā)明的由2D圖像生成3D圖像技術(shù)解析

    谷歌發(fā)明的由2D圖像生成3D圖像的技術(shù),利用3D估計(jì)神經(jīng)網(wǎng)絡(luò)圖像信息的補(bǔ)全以及預(yù)測(cè),融合了拍攝角度、光照等信息,讓
    的頭像 發(fā)表于 12-24 12:55 ?4837次閱讀
    谷歌發(fā)明的由<b class='flag-5'>2D</b>圖像<b class='flag-5'>生成</b><b class='flag-5'>3D</b>圖像技術(shù)解析

    基于視覺(jué)注意力的全卷積網(wǎng)絡(luò)3D內(nèi)容生成方法

     由于在某些特殊場(chǎng)景中獲取深度線索的難度較高,使得已有3D內(nèi)容生成方法的應(yīng)用受到限制。為此,以顯著圖代替深度圖進(jìn)行2D-3D轉(zhuǎn)換,提出
    發(fā)表于 05-13 16:13 ?11次下載

    Meta提出Make-A-Video3D行文本,生成3D動(dòng)態(tài)場(chǎng)景

    具體而言,該方法運(yùn)用 4D 動(dòng)態(tài)神經(jīng)輻射場(chǎng)(NeRF),通過(guò)查詢(xún)基于文本到視頻(T2V)擴(kuò)散的模型,優(yōu)化場(chǎng)景外觀、密度和運(yùn)動(dòng)的致性。任意機(jī)
    的頭像 發(fā)表于 03-24 10:47 ?1112次閱讀

    NeuralLift-360:將野外的2D照片提升為3D物體

    3D點(diǎn)云中生成可渲染的3D網(wǎng)格:使用個(gè)基于深度學(xué)習(xí)的方法來(lái)將點(diǎn)云轉(zhuǎn)換為可渲染的3D網(wǎng)格。具體
    的頭像 發(fā)表于 04-16 10:02 ?2235次閱讀

    清華朱軍團(tuán)隊(duì)提出ProlificDreamer:直接文本生成高質(zhì)量3D內(nèi)容

    將 Imagen 生成照片(下圖靜態(tài)圖)和 ProlificDreamer(基于 Stable-Diffusion)生成3D(下圖動(dòng)態(tài)圖)進(jìn)行對(duì)比。有網(wǎng)友感慨:短短
    的頭像 發(fā)表于 05-29 10:02 ?980次閱讀
    清華朱軍團(tuán)隊(duì)提出ProlificDreamer:直接文本<b class='flag-5'>生成</b>高質(zhì)量<b class='flag-5'>3D</b>內(nèi)容

    3D人體生成模型HumanGaussian實(shí)現(xiàn)原理

    和驅(qū)動(dòng)等。為了自動(dòng)化 3D 內(nèi)容生成,此前的些典型工作(比如 DreamFusion [1] )提出了分?jǐn)?shù)蒸餾采樣 (Score Distillation Sampling),通過(guò)優(yōu)化 3D
    的頭像 發(fā)表于 12-20 16:37 ?1745次閱讀
    <b class='flag-5'>3D</b>人體<b class='flag-5'>生成</b>模型HumanGaussian實(shí)現(xiàn)原理

    2D3D視覺(jué)技術(shù)的比較

    作為個(gè)多年經(jīng)驗(yàn)的機(jī)器視覺(jué)工程師,我將詳細(xì)介紹2D3D視覺(jué)技術(shù)的不同特點(diǎn)、應(yīng)用場(chǎng)景以及它們能夠解決的問(wèn)題。在這個(gè)領(lǐng)域內(nèi),
    的頭像 發(fā)表于 12-21 09:19 ?1290次閱讀

    文了解3D視覺(jué)和2D視覺(jué)的區(qū)別

    文了解3D視覺(jué)和2D視覺(jué)的區(qū)別 3D視覺(jué)和2D視覺(jué)是兩種不同的視覺(jué)模式,其區(qū)別主要體現(xiàn)在立體感、深度感和逼真度上。本文將詳細(xì)闡述這些區(qū)別,
    的頭像 發(fā)表于 12-25 11:15 ?3528次閱讀

    谷歌DeepMind推新AI模型Genie,能生成2D游戲平臺(tái)

    據(jù)報(bào)道,谷歌公司的DeepMind團(tuán)隊(duì)近期發(fā)布了AI模型Genie,此模型擁有多達(dá)110億個(gè)參數(shù),能夠依據(jù)用戶(hù)提供的圖片及提示詞創(chuàng)建出相當(dāng)完整的2D游戲場(chǎng)景。
    的頭像 發(fā)表于 02-27 14:53 ?858次閱讀

    Adobe Substance 3D整合AI功能:基于文本生成紋理、背景

    Substance 3D Stager是以Adobe Dimension為基礎(chǔ)改造而成,使用者可直觀地進(jìn)行3D場(chǎng)景構(gòu)建,包括模型、材質(zhì)和燈光等要素。借助其強(qiáng)大功能,能夠生成極具觀賞性的
    的頭像 發(fā)表于 03-20 10:28 ?860次閱讀

    歡創(chuàng)播報(bào) 騰訊元寶首發(fā)3D生成應(yīng)用

    1 騰訊元寶首發(fā)3D生成應(yīng)用 只需一張照片,便能迅速打造獨(dú)無(wú)二的3D角色。7月16日,騰訊旗下大模型應(yīng)用“騰訊元寶”上線了“
    的頭像 發(fā)表于 07-18 11:39 ?836次閱讀
    歡創(chuàng)播報(bào) 騰訊元寶首發(fā)<b class='flag-5'>3D</b><b class='flag-5'>生成</b>應(yīng)用