欧美性猛交xxxx免费看_牛牛在线视频国产免费_天堂草原电视剧在线观看免费_国产粉嫩高清在线观看_国产欧美日本亚洲精品一5区

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種圖像語義分層處理框架,可以實(shí)現(xiàn)像素級別的圖像語義理解和操縱

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-08-27 08:52 ? 次閱讀

密歇根大學(xué)和谷歌大腦的研究人員合作,提出了一種圖像語義分層處理框架,可以實(shí)現(xiàn)像素級別的圖像語義理解和操縱,在圖像中任意添加、改變、移動對象,并與原圖渾然一體,實(shí)現(xiàn)真正的“毫無PS痕跡”。

曾經(jīng),你以為下面普京×容嬤嬤那張圖就稱得上“毫無PS痕跡”了。

的確,用肉眼看,效果是很不錯。但是,在專業(yè)的圖像分析軟件下,修改的痕跡一目了然。

你再看看這兩張圖:

不不不,這不是“找不同”,是為了讓你感受一下“像素級語義分割和理解”帶來的修圖效果:

可能,你需要看得更清晰一點(diǎn)。

看好了哦,這是原圖:

發(fā)現(xiàn)有什么不同/不自然的地方了嗎?(提示:一共有7處不同)。

先別急著往下拉……

答案揭曉:

實(shí)際上,找出不同是很簡單的(畢竟多了好幾個東西),關(guān)鍵是這樣像素級的改動,比原先意義上“毫無PS痕跡”增強(qiáng)了一大步!

無論是色調(diào)、光線還是紋理,都與原圖配合得更加自然,操作起來也十分簡單方便。

這多虧了密歇根大學(xué)和谷歌大腦的研究人員,他們提出了一種新的圖像語義處理分層框架,首先根據(jù)圖像中給定對象的邊界框,學(xué)習(xí)生成像素級語義標(biāo)簽地圖(pixel-wise semantic label maps),然后根據(jù)這個地圖再生成新的圖像。

因此,用戶可以實(shí)現(xiàn)對象級的操縱,無論是改變顏色、移動位置、去除某個物體,增加新的東西,或者把原來在最前面的人物往后移一層或兩層,而且與原圖像自然融為一體。

操作只需要一步即可:

圖像語義分層處理框架工作流程圖示意:輸入車道照片,輸出上面有一輛車的照片

定量和定性結(jié)果分析,該方法比當(dāng)前流行的Context Encoder、Pix2PixHD等效果都要高出許多。這有望掀起計(jì)算機(jī)視覺和圖像處理界的巨變,難怪有人看完后在Twitter留言:

“在我兩年前開始學(xué)計(jì)算機(jī)視覺時,這種技術(shù)簡直是無法想象的?!薄昂喼笔强苹米兂闪爽F(xiàn)實(shí)!”

還有人疾呼:PS里有個功能我想在就想要!

像素級分層語義處理框架,實(shí)現(xiàn)圖片對象自然修改

想必大家看到這個神級PS技術(shù),對其原理應(yīng)該是十分好奇了吧!接下來,小編就帶著讀者領(lǐng)略這款神技的技術(shù)奧秘!

正如上述所言,這個PS技術(shù)框架的核心就是分層圖像處理。

當(dāng)給出新的邊界框B時,算法首先通過以B為中心、尺寸為S×S的裁剪平方窗口,提取標(biāo)簽映射(semantic label map)M∈RS×S×C和圖像I∈RS×S×3的局部觀測值。 在M,I和B上,模型通過以下過程生成操縱圖像:

給定邊界框B和語義標(biāo)簽映射M,結(jié)構(gòu)生成器通過

給定操縱的標(biāo)簽映射M和圖像I,圖像生成器通過

而在分層圖像處理過程中,有兩個核心的關(guān)鍵步驟:

結(jié)構(gòu)生成器(Structure Generator)

結(jié)構(gòu)生成器的目標(biāo)是以像素級類標(biāo)簽M∈RS×S×C的形式推斷由B = {b,c}指定的區(qū)域的潛在結(jié)構(gòu)。

結(jié)構(gòu)生成器的體系結(jié)構(gòu)

給定一個masked layout M和一個binary mask B,分別用于對目標(biāo)的類和位置進(jìn)行編碼。該模型通過來自雙流解碼器(two-stream decoder)的輸出產(chǎn)生M(該雙流解碼器對應(yīng)于box整個區(qū)域中對象的二進(jìn)制掩碼和語義標(biāo)簽映射)。

圖像生成器(Image Generator)

給定一張圖像I和從結(jié)構(gòu)生成器中獲得的可操縱layout M,圖像生成器輸出區(qū)域內(nèi)由B定義的、內(nèi)容的像素級預(yù)測。

圖像生成器的體系結(jié)構(gòu)

給定一張masked圖像I和語義layout M,該模型使用單獨(dú)的編碼路徑對對象的視覺樣式和語義結(jié)構(gòu)進(jìn)行編碼,并產(chǎn)生被操縱的圖像。

超越當(dāng)前最好標(biāo)準(zhǔn),從此修圖隨心所欲

定量評估

Ablation Study。 為了分析所提方法的有效性,對該方法的幾種變體進(jìn)行了Ablation Study。 首先考慮圖像生成器的三個基線:

僅限于圖像上下文(SingleStream-Image);

僅限于語義布局(SingleStream-Layout);

對上述兩個基線的結(jié)合。

結(jié)果如下表所示:

下圖顯示了基線的定性比較:

定性分析

語義對象處理

通過將汽車的同一個邊界框移動到圖像中的不同位置來展示操作結(jié)果

從圖中可以看到,當(dāng)把車的邊框從一邊移動到另一邊的時候,模型所產(chǎn)生的車輛外觀發(fā)生了變化。有趣的是,汽車的形狀、方向和外觀也會根據(jù)周圍區(qū)域的場景布局和陰影而改變。

在更多樣化的上下文中生成的結(jié)果

該結(jié)果表明,模型在考慮上下文的情況下生成了合適的對象結(jié)構(gòu)和外觀。除了生成與周圍環(huán)境相匹配的對象外,還可以對框架輕松地進(jìn)行擴(kuò)展,允許用戶直接控制對象樣式。

擴(kuò)展式操作

用樣式向量控制對象顏色

結(jié)果表明,模型成功地合成了具有指定顏色的各種對象,同時保持圖像的其他部分不變。

交互式和數(shù)據(jù)驅(qū)動的圖像編輯

圖像編輯是該模型的關(guān)鍵點(diǎn)之一。通過添加、刪除和移動對象邊界框來執(zhí)行交互式圖像處理。 結(jié)果如下圖所示:

在圖像中對多對象進(jìn)行處理的例子

表明該方法生成合理的語義布局和圖像,可以平滑地增加原始圖像的內(nèi)容。除了交互式操作之外,還可以通過以數(shù)據(jù)驅(qū)動的方式對圖像中的邊界框進(jìn)行采樣來自動化操作過程。 結(jié)果如下圖所示:

數(shù)據(jù)驅(qū)動的圖像操作示例

室內(nèi)場景數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果

使用ADE20K數(shù)據(jù)集對臥室圖像進(jìn)行定性實(shí)驗(yàn)。 下圖展示了了交互式圖像處理結(jié)果。

室內(nèi)圖像處理的示例

由于室內(nèi)圖像中的對象涉及更多樣化的類別和外觀,因此生成與場景中的其他組件對齊的適當(dāng)對象形狀和紋理比街道圖像更具挑戰(zhàn)性。

可以看出,該方法生成的對象與周圍環(huán)境可以保持高度一致性。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6203

    瀏覽量

    106100
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1089

    瀏覽量

    40593
  • 圖像分析
    +關(guān)注

    關(guān)注

    0

    文章

    82

    瀏覽量

    18727

原文標(biāo)題:谷歌等祭出圖像語義理解分割神器,PS再也不用專業(yè)設(shè)計(jì)師!

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    FPGA圖像處理基礎(chǔ)----實(shí)現(xiàn)緩存卷積窗口

    像素行與像素窗口 圖像是由個個像素點(diǎn)構(gòu)成的,對于
    的頭像 發(fā)表于 02-07 10:43 ?120次閱讀
    FPGA<b class='flag-5'>圖像</b><b class='flag-5'>處理</b>基礎(chǔ)----<b class='flag-5'>實(shí)現(xiàn)</b>緩存卷積窗口

    SparseViT:以非語義為中心、參數(shù)高效的稀疏化視覺Transformer

    ? 背景簡介 隨著圖像編輯工具和圖像生成技術(shù)的快速發(fā)展,圖像處理變得非常方便。然而圖像在經(jīng)過處理
    的頭像 發(fā)表于 01-15 09:30 ?126次閱讀
    SparseViT:以非<b class='flag-5'>語義</b>為中心、參數(shù)高效的稀疏化視覺Transformer

    利用VLM和MLLMs實(shí)現(xiàn)SLAM語義增強(qiáng)

    語義同步定位與建圖(SLAM)系統(tǒng)在對鄰近的語義相似物體進(jìn)行建圖時面臨困境,特別是在復(fù)雜的室內(nèi)環(huán)境中。本文提出了一種面向?qū)ο骃LAM的語義增強(qiáng)(SEO-SLAM)的新型SLAM系統(tǒng),借
    的頭像 發(fā)表于 12-05 10:00 ?311次閱讀
    利用VLM和MLLMs<b class='flag-5'>實(shí)現(xiàn)</b>SLAM<b class='flag-5'>語義</b>增強(qiáng)

    百問FB顯示開發(fā)圖像處理 - BMP圖像處理

    2 圖像處理 ?前言:所有的圖像文件,都是一種二進(jìn)制格式文件,每圖像文件,都
    發(fā)表于 11-28 13:52

    如何設(shè)定機(jī)器人語義地圖的細(xì)粒度級別

    和區(qū)域與封閉的語義標(biāo)簽集對應(yīng)的工作。然而,封閉集檢測在能夠表示的概念集方面存在固有的限制,并且不能很好地處理自然語言的內(nèi)在歧義性和可變性。為了克服這些限制,組新的方法開始利用視覺語言基礎(chǔ)模型進(jìn)行開放集
    的頭像 發(fā)表于 11-12 10:54 ?398次閱讀
    如何設(shè)定機(jī)器人<b class='flag-5'>語義</b>地圖的細(xì)粒度<b class='flag-5'>級別</b>

    使用語義線索增強(qiáng)局部特征匹配

    視覺匹配是關(guān)鍵計(jì)算機(jī)視覺任務(wù)中的關(guān)鍵步驟,包括攝像機(jī)定位、圖像配準(zhǔn)和運(yùn)動結(jié)構(gòu)。目前最有效的匹配關(guān)鍵點(diǎn)的技術(shù)包括使用經(jīng)過學(xué)習(xí)的稀疏或密集匹配器,這需要成對的圖像。這些神經(jīng)網(wǎng)絡(luò)對兩幅圖像的特征有很好的總體
    的頭像 發(fā)表于 10-28 09:57 ?354次閱讀
    使用<b class='flag-5'>語義</b>線索增強(qiáng)局部特征匹配

    語義分割25損失函數(shù)綜述和展望

    本綜述提供了對25用于圖像分割的損失函數(shù)的全面且統(tǒng)的回顧。我們提供了一種新穎的分類法,并詳細(xì)審查了這些損失函數(shù)如何在圖像分割中被定制和利
    的頭像 發(fā)表于 10-22 08:04 ?850次閱讀
    <b class='flag-5'>語義</b>分割25<b class='flag-5'>種</b>損失函數(shù)綜述和展望

    圖像處理器是什么意思

    圖像處理器(Image Processor)是一種專門用于圖像處理和計(jì)算的硬件設(shè)備或芯片,它通過高速數(shù)據(jù)傳輸、
    的頭像 發(fā)表于 08-14 09:28 ?1108次閱讀

    DSP教學(xué)實(shí)驗(yàn)箱_數(shù)字圖像處理操作_案例分享:5-13 灰度圖像二值化

    ,以二值圖像處理實(shí)現(xiàn)而構(gòu)成的系統(tǒng)是很多的,要進(jìn)行二值圖像處理與分析,首先要把灰度圖像二值化,得
    發(fā)表于 07-25 15:03

    圖像語義分割的實(shí)用性是什么

    圖像語義分割是一種重要的計(jì)算機(jī)視覺任務(wù),它旨在將圖像中的每個像素分配到相應(yīng)的語義類別中。這項(xiàng)技術(shù)
    的頭像 發(fā)表于 07-17 09:56 ?551次閱讀

    圖像分割和語義分割的區(qū)別與聯(lián)系

    、亮度等。圖像分割的目的是將圖像中感興趣的部分與背景分離,以便進(jìn)行進(jìn)步的處理和分析。 1.1 圖像分割的類型
    的頭像 發(fā)表于 07-17 09:55 ?1212次閱讀

    圖像識別技術(shù)的原理是什么

    圖像識別技術(shù)是一種利用計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)技術(shù)對圖像進(jìn)行分析和理解的技術(shù)。它可以幫助計(jì)算機(jī)識別和理解
    的頭像 發(fā)表于 07-16 10:46 ?1487次閱讀

    圖像分割與語義分割中的CNN模型綜述

    圖像分割與語義分割是計(jì)算機(jī)視覺領(lǐng)域的重要任務(wù),旨在將圖像劃分為多個具有特定語義含義的區(qū)域或?qū)ο?。卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學(xué)習(xí)的一種核心
    的頭像 發(fā)表于 07-09 11:51 ?1203次閱讀

    FPGA設(shè)計(jì)經(jīng)驗(yàn)之圖像處理

    處理窗口 對資源影響成倍增加 基于FPGA設(shè)計(jì)框架舉例: 1、灰度直方圖統(tǒng)計(jì) 直方圖是圖像的灰度分布統(tǒng)計(jì)的一種表示方法,統(tǒng)計(jì)目標(biāo)圖像
    發(fā)表于 06-12 16:26

    基于FPGA的實(shí)時邊緣檢測系統(tǒng)設(shè)計(jì),Sobel圖像邊緣檢測,F(xiàn)PGA圖像處理

    計(jì)算機(jī)軟件實(shí)現(xiàn)方式有更快的處理速度。 經(jīng)驗(yàn)證,系統(tǒng)工作穩(wěn)定,滿足實(shí)時性要求 。 MATLAB 與 FPGA無線通信、圖像處理、數(shù)字信號處理
    發(fā)表于 05-24 07:45