想記錄美好瞬間,手機(jī)還沒(méi)掏出來(lái)就結(jié)束了,怎么辦!不要慌,谷歌近日發(fā)明了一款能自動(dòng)捕捉精彩時(shí)刻的相機(jī),它能識(shí)別出那些有意義、值得記錄的場(chǎng)景,并在博客上公開了這一技術(shù)。以下是論智的編譯。
對(duì)我來(lái)說(shuō),照相就是在一瞬間,對(duì)某件事的本質(zhì)和組織形式進(jìn)行同步記錄的過(guò)程。——Henri Cartier-Bresson
過(guò)去幾年,AI產(chǎn)品呈現(xiàn)爆炸式增長(zhǎng),深度學(xué)習(xí)算法讓計(jì)算機(jī)視覺技術(shù)能認(rèn)得一幅好照片滿足的各種元素:人物、微笑、寵物、落日、著名地標(biāo)等等。但是,除了最近的進(jìn)步,自動(dòng)拍照仍然是一個(gè)非常具有挑戰(zhàn)性的問(wèn)題,即相機(jī)能否自動(dòng)捕捉到一個(gè)完美的瞬間呢?
最近,我們發(fā)布了Google Clips,這款相機(jī)無(wú)需手動(dòng)操作,就能自動(dòng)捕捉你生活中有趣的時(shí)刻。在設(shè)計(jì)它時(shí),我們遵循了三條重要的原則:
我們想將計(jì)算設(shè)計(jì)成置于移動(dòng)端的。除了延長(zhǎng)電池的壽命并減少延遲,在移動(dòng)設(shè)備中進(jìn)行處理意味著你所有的照片都不會(huì)自動(dòng)從設(shè)備上刪除,除非你想保存或分享它們,這是有關(guān)隱私控制的關(guān)鍵。
我們想讓設(shè)備捕捉短視頻,而非單一的照片。有動(dòng)作的時(shí)刻才是真正的回憶,并且錄像比拍照要容易得多。
我們想捕捉人或?qū)櫸镫S意自然的時(shí)刻,而不想拍出一張抽象的藝術(shù)照。也就是說(shuō),我們不會(huì)教Clips考慮構(gòu)圖、色彩平衡、光線等因素,而是要注意選擇拍攝的時(shí)間,其中要包含人或動(dòng)物有趣的瞬間。
學(xué)習(xí)辨認(rèn)美好瞬間
如何訓(xùn)練一套算法學(xué)會(huì)辨認(rèn)有趣的時(shí)刻呢?和眾多機(jī)器學(xué)習(xí)問(wèn)題一樣,我們先從數(shù)據(jù)集開始。我們創(chuàng)建了一個(gè)含有上千段視頻的數(shù)據(jù)集,視頻展示的是不同場(chǎng)景,假設(shè)這是用Clips制作出來(lái)的。同時(shí),還要保證視頻涵蓋了不同種族、性別和年齡階段的人。之后,我們招募了一些專業(yè)攝影師和視頻編輯師,對(duì)這些視頻加注并選出最佳短視頻片段。篩選之后,剩余的視頻讓我們對(duì)算法最后達(dá)到的目標(biāo)有了概念。但是,只靠這些由人類挑選出來(lái)的視頻訓(xùn)練算法仍然很困難,我們還需要得到一個(gè)平滑的標(biāo)簽梯度,從“perfect”到“terrible”,讓算法學(xué)會(huì)辨認(rèn)照片的質(zhì)量。
為了解決這個(gè)問(wèn)題,我們又加入了一種數(shù)據(jù)收集方法,目的是讓模型生成連續(xù)高質(zhì)量的視頻。我們吧每段視頻分割成一小段一小段的(就像Clips捕捉到的那樣),然后隨機(jī)選取兩段作為一組,讓人們從中選出他們認(rèn)為更好地一段。
我們之所以選用這種比較法而不直接讓人打分,正是因?yàn)槎x一比打出具體的分?jǐn)?shù)更容易。我們發(fā)現(xiàn),大家在做二選一時(shí)的意見是比較一致的,如果打分的話就不那么統(tǒng)一了。如果某段視頻經(jīng)過(guò)足夠多的小片段對(duì)比,我們就能計(jì)算出整段視頻的連續(xù)質(zhì)量分?jǐn)?shù)。在這一過(guò)程中,我們從超過(guò)1000段視頻中一共收集了5000萬(wàn)個(gè)對(duì)比片段,工作量真的非常大!
訓(xùn)練視頻片段質(zhì)量模型
有了上述的質(zhì)量分?jǐn)?shù)作為訓(xùn)練數(shù)據(jù),下一步我們就要訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)設(shè)備所拍攝的照片質(zhì)量。首先,我們假設(shè):模型如果能知道照片里有什么(人物、狗狗或者大樹等等),將有助于提高視頻的趣味性。如果這個(gè)假設(shè)是對(duì)的,我們可以學(xué)習(xí)一個(gè)方程,通過(guò)辨認(rèn)照片上的內(nèi)容預(yù)測(cè)短視頻的質(zhì)量分?jǐn)?shù)。
為了辨認(rèn)我們訓(xùn)練數(shù)據(jù)中的內(nèi)容標(biāo)簽,我們用了谷歌圖像搜索中的機(jī)器學(xué)習(xí)技術(shù),它可以辨認(rèn)超過(guò)27000種不同的標(biāo)簽,包括描述物體、概念和動(dòng)作等標(biāo)簽。當(dāng)然,我們不會(huì)用到所有的標(biāo)簽,專業(yè)的攝影師只從中挑選了幾百個(gè)他們認(rèn)為“有趣的”標(biāo)簽。我們還添加了其他能描述照片質(zhì)量的標(biāo)簽。
標(biāo)簽集建立好之后,我們就需要設(shè)計(jì)一個(gè)緊湊高效的模型,可以預(yù)測(cè)任意提供的照片。由于計(jì)算機(jī)視覺技術(shù)背后都需要強(qiáng)大的GPU支持,想讓算法在移動(dòng)設(shè)備上運(yùn)行很可能會(huì)使速度降低許多。為了訓(xùn)練這個(gè)移動(dòng)設(shè)備模型,我們首先建立了大型照片數(shù)據(jù)集,然后用谷歌的圖像識(shí)別模型預(yù)測(cè)每個(gè)被打上“有趣”標(biāo)簽的照片可信度。然后訓(xùn)練一個(gè)MobileNet圖像內(nèi)容模型(ICM),模仿谷歌模型的預(yù)測(cè)結(jié)果。這樣這一緊湊的模型就能夠辨認(rèn)出照片中最有趣的元素了,同時(shí)還能忽略不相關(guān)的內(nèi)容。
最后一步,就是要根據(jù)ICM判斷的內(nèi)容預(yù)測(cè)單張照片的質(zhì)量分?jǐn)?shù)。這一分?jǐn)?shù)是由一個(gè)分段線性回歸模型計(jì)算出來(lái)的,它結(jié)合了ICM的輸出和幀質(zhì)量分?jǐn)?shù)。這個(gè)幀質(zhì)量分?jǐn)?shù)是由視頻片段組合成摸個(gè)靜止時(shí)刻的分?jǐn)?shù)再取平均數(shù)得來(lái)的。通過(guò)讓人們對(duì)兩個(gè)視頻片段進(jìn)行對(duì)比,我們的模型應(yīng)該會(huì)計(jì)算出比人類更高的分?jǐn)?shù)。這一模型經(jīng)過(guò)訓(xùn)練,所以它的預(yù)測(cè)盡可能地和人類的選擇相似。
生成幀質(zhì)量分?jǐn)?shù)的訓(xùn)練過(guò)程。分段線性回歸將ICM的嵌入映射到一個(gè)分?jǐn)?shù)
這一過(guò)程訓(xùn)練出的模型既有谷歌圖像識(shí)別技術(shù),又加入了人類打分員的評(píng)分。雖然由數(shù)據(jù)生成的結(jié)果很好地定義了哪些是“有趣時(shí)刻”,但我們?nèi)匀辉谀承┣榫持屑尤肓祟~外分?jǐn)?shù),因?yàn)槲覀兿M茏孋lips捕捉到,包括人臉、微笑、寵物等。在最近的版本中,我們還加入了例如擁抱、親吻、跳躍、跳舞等特殊的動(dòng)作。分辨這些活動(dòng)需要擴(kuò)展ICM模型。
拍照控制器
有了預(yù)測(cè)場(chǎng)景趣味性的模型,Clips相機(jī)可以實(shí)時(shí)決定該捕捉哪些鏡頭。模型的拍照控制算法遵循了以下三個(gè)原則:
分別供能 & 熱成像:我們想讓Clips的電池續(xù)航大致達(dá)到3個(gè)小時(shí),并且不想讓設(shè)備過(guò)熱。Clips大部分都在捕捉幀的速度是每秒一幀,這是不怎么耗電的。如果捕捉的幀的質(zhì)量超過(guò)了Clips最近設(shè)立的范圍,它就會(huì)編程每秒捕捉15幀,這是非常耗電的模式。Clips會(huì)在之后保存第一個(gè)質(zhì)量最高的圖片。
避免重復(fù):我們不想讓Clips一次捕捉所有的動(dòng)作,同時(shí)忽略其他部分。我們的算法會(huì)將看起來(lái)相似的視頻集合起來(lái),然后限制其中的數(shù)量。
后見之明:當(dāng)你檢查捕捉到的全部片段后,才能決定哪一片段更好。所以,Clips會(huì)收集比預(yù)定要多的片段。當(dāng)這些視頻要被轉(zhuǎn)換到設(shè)備上前,Clips會(huì)再次檢查,將最佳的、最獨(dú)特的視頻傳到設(shè)備上。
機(jī)器學(xué)習(xí)的公平性
為了保證我們的視頻數(shù)據(jù)集具有多樣性,我們還創(chuàng)建了一些其他的測(cè)試,保證算法的公平性。我們創(chuàng)建了一個(gè)控制變量數(shù)據(jù)集,其中的樣本對(duì)象擁有著不同的性別和膚色,保證其他因素(視頻類型、時(shí)長(zhǎng)、環(huán)境條件)相同。然后,我們用這一數(shù)據(jù)集測(cè)試我們的算法,結(jié)果表明雖然對(duì)象不同,但性能相似。為了檢測(cè)出當(dāng)改進(jìn)視頻質(zhì)量模型時(shí)所出現(xiàn)的公平性減弱,我們?cè)谧詣?dòng)系統(tǒng)中加入了公平性檢測(cè)。軟件中的任何改變都會(huì)經(jīng)過(guò)這一測(cè)試。需要注意的是,這一方法并不能保證絕對(duì)的公平,因?yàn)槲覀儾豢赡軠y(cè)試任何可能的產(chǎn)經(jīng)和輸出。然而,我們相信這些步驟對(duì)于達(dá)到機(jī)器學(xué)習(xí)的公平是很有幫助的。
-
谷歌
+關(guān)注
關(guān)注
27文章
6203瀏覽量
106100 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8449瀏覽量
133135 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5519瀏覽量
121613
原文標(biāo)題:谷歌用深度學(xué)習(xí)創(chuàng)建自動(dòng)相機(jī)Clips,替你記錄美好瞬間
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
一款基于幀捕捉的開源圖形調(diào)試器應(yīng)用設(shè)計(jì)
![<b class='flag-5'>一款</b>基于幀<b class='flag-5'>捕捉</b>的開源圖形調(diào)試器應(yīng)用設(shè)計(jì)](https://file.elecfans.com/web1/M00/4E/96/o4YBAFrC0Z-AVOhUAAHftXCyuVE598.png)
名校學(xué)生逃課四月發(fā)明自動(dòng)種樹機(jī)器人
求教工業(yè)相機(jī)的哪一款性價(jià)比高?
SuperEye一款內(nèi)置CPU的相機(jī)--mangotree出品
驢友強(qiáng)烈推薦的一款4K運(yùn)動(dòng)相機(jī),用過(guò)都說(shuō)好!
谷歌推出了一款名為“Clips”的新設(shè)備 并開始銷售這款產(chǎn)品
Ambarella推出一款名為CV2的新型相機(jī)SoC
![Ambarella推出<b class='flag-5'>一款</b>名為CV2的新型<b class='flag-5'>相機(jī)</b>SoC](https://file.elecfans.com/web1/M00/50/C0/o4YBAFr6g3-ARqNrAAAje6TtXuE093.png)
卡內(nèi)基梅隆大學(xué)研發(fā)了一款投影觸控智能手表
Lucid VR宣布與相機(jī)公司RED合作,開發(fā)一款用于拍攝8K視頻和圖像的180度立體相機(jī)
日本一公司推出一款“雨傘無(wú)人機(jī)”,又一款然并卵的發(fā)明
Yi Halo是一款不一樣的VR相機(jī),可在谷歌的Jump平臺(tái)上運(yùn)行
中國(guó)小伙發(fā)明無(wú)人相機(jī),引美國(guó)各大媒體都爭(zhēng)相報(bào)道……
國(guó)外發(fā)明了一種反向太陽(yáng)能電池 可利用夜間地球輻射熱量產(chǎn)生電光源
基于多相機(jī)捕捉系統(tǒng)下的通用物體運(yùn)動(dòng)捕捉方法
TECNO全球首發(fā)智能手機(jī)行業(yè)第一款雙棱鏡潛望大角度長(zhǎng)焦相機(jī)
![TECNO全球首發(fā)智能手機(jī)行業(yè)第<b class='flag-5'>一款</b>雙棱鏡潛望大角度長(zhǎng)焦<b class='flag-5'>相機(jī)</b>](https://file.elecfans.com/web2/M00/7D/A9/poYBAGOAYaqAXLsXAAAnwy31Wh8670.png)
評(píng)論