蘋果發(fā)布首份人工智能報告(全文):瞄準(zhǔn)AI視覺

日前,蘋果發(fā)布了其首份關(guān)于人工智能(AI)的學(xué)術(shù)論文——“通過對抗網(wǎng)絡(luò)使用模擬和非監(jiān)督圖像訓(xùn)練”(Learning from Simulated and Unsupervised Images through Adversarial Training),其中主要描述了在計算機(jī)視覺系統(tǒng)中提高圖像識別的方法,而這或許也標(biāo)志著蘋果公司研究的新方向。

下面就是這篇報告的全文:

摘要

隨著圖形技術(shù)不斷進(jìn)步,利用合成圖像訓(xùn)練機(jī)器學(xué)習(xí)模型變得越來越容易,這可以幫助避免注釋圖像的昂貴支出。然而,通過合成圖像訓(xùn)練機(jī)器學(xué)習(xí)模型可能無法達(dá)到令人滿意的效果,因?yàn)楹铣蓤D像與真實(shí)圖像之間畢竟存在區(qū)別。為了減少這種差異,我們提出“模擬+無監(jiān)督”學(xué)習(xí)方法,即通過計算機(jī)生成圖像或合成圖像來訓(xùn)練算法的圖像識別能力。

事實(shí)上,這種“模擬+無監(jiān)督”學(xué)習(xí)需要將無標(biāo)注的真實(shí)圖像數(shù)據(jù)與已經(jīng)注釋的合成圖像相結(jié)合。在很大程度上,它需要依賴生成式對抗網(wǎng)絡(luò)(GAN)的新機(jī)器學(xué)習(xí)技術(shù),它可通過兩個神經(jīng)網(wǎng)絡(luò)相互對抗以生成更加真實(shí)的圖像。我們對標(biāo)準(zhǔn)GAN算法進(jìn)行了多處關(guān)鍵性修改,以保留注釋、避免偽影以及穩(wěn)定性訓(xùn)練:自正則化(self-regularization)-局部對抗性損失-使用精煉圖像升級鑒別器。

我們發(fā)現(xiàn),這個過程可以產(chǎn)生高度逼真的圖像,在質(zhì)量上和用戶研究方面都已經(jīng)獲得證實(shí)。我們已經(jīng)通過訓(xùn)練模型評估視線水平和手勢姿態(tài),對計算機(jī)生成圖像進(jìn)行定量評估。通過使用合成圖像,我們的圖像識別算法已經(jīng)取得了巨大進(jìn)步。在沒有使用任何標(biāo)準(zhǔn)真實(shí)數(shù)據(jù)的情況下,我們在MPIIGaze數(shù)據(jù)集中獲得了最高水平的結(jié)果。

引言

隨著最近高容量深度神經(jīng)學(xué)習(xí)網(wǎng)絡(luò)的崛起,大規(guī)模標(biāo)注訓(xùn)練數(shù)據(jù)集正變得日益重要??墒牵瑯?biāo)準(zhǔn)數(shù)量龐大的數(shù)據(jù)集成本非常高,而且相當(dāng)耗費(fèi)時間。為此,使用合成圖像而非真實(shí)圖像訓(xùn)練算法的想法開始出現(xiàn),因?yàn)樽⑨屢呀?jīng)可實(shí)現(xiàn)自動化。利用XBOX360外設(shè)Kinect評估人體姿勢以及其他任務(wù),都是使用合成數(shù)據(jù)完成的。

(圖1:“模擬+無監(jiān)督”學(xué)習(xí):通過計算機(jī)生成圖像或合成圖像來訓(xùn)練算法的圖像識別能力)

然而,由于合成圖像與真實(shí)圖像之間存在差距,使用合成圖像訓(xùn)練算法可能產(chǎn)生很多問題。因?yàn)楹铣蓤D像通常不夠真實(shí),導(dǎo)致神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)僅僅能夠了解到合成圖像中的細(xì)節(jié),并不能完整地識別出真實(shí)圖像,進(jìn)而也無法為算法提供精確的學(xué)習(xí)。一種解決方案就是改進(jìn)模擬器,可是增加真實(shí)性的計算往往非常昂貴,渲染器的設(shè)計也更加困難。此外,即使最頂級的渲染器可能也無法模仿真實(shí)圖像中的所有特征。因此,缺少真實(shí)性可能導(dǎo)致算法過度擬合合成圖像中不真實(shí)的細(xì)節(jié)。

在這篇論文中,我們提出“模擬+無監(jiān)督”學(xué)習(xí)的方法,其目的就是使用未標(biāo)注真實(shí)數(shù)據(jù)的模擬器提高合成圖像的真實(shí)性。提高真實(shí)性可更好地幫助訓(xùn)練機(jī)器學(xué)習(xí)模型,而且無需收集任何數(shù)據(jù),也無需人類繼續(xù)標(biāo)注圖像。除了增加真實(shí)性,“模擬+無監(jiān)督”學(xué)習(xí)還應(yīng)該保留注釋信息以用于訓(xùn)練機(jī)器學(xué)習(xí)模型,比如圖一中的注視方向應(yīng)被保留下來。此外,由于機(jī)器學(xué)習(xí)模型對合成數(shù)據(jù)中的偽影非常敏感,“模擬+無監(jiān)督”學(xué)習(xí)也應(yīng)該產(chǎn)生沒有偽影的圖像。

我們?yōu)?ldquo;模擬+無監(jiān)督”學(xué)習(xí)開發(fā)出新的方法,我們稱之為SimGAN,它可以利用我們稱之為“精煉器網(wǎng)絡(luò)(refiner network)”的神經(jīng)網(wǎng)絡(luò)從模擬器中提煉合成圖像。圖二中展示了這種方法的概述:第一,黑盒子模擬器中生成合成圖像,然后利用“精煉器網(wǎng)絡(luò)”對其進(jìn)行提煉。為了增加真實(shí)性,也就是“模擬+無監(jiān)督”學(xué)習(xí)算法的首要需求,我們需要利用類似生成式對抗網(wǎng)絡(luò)(GAN)來訓(xùn)練“精煉器網(wǎng)絡(luò)”,進(jìn)而產(chǎn)生判別網(wǎng)絡(luò)無法區(qū)分真假的精煉圖像。

第二,為了保留合成圖像上的注釋信息,我們需要利用“自正則化損失”彌補(bǔ)對抗性損失,在合成圖像和精煉圖像之間進(jìn)行修改。此外,我們還利用完全卷積神經(jīng)網(wǎng)絡(luò),在像素水平方面進(jìn)行操作,并保留全局結(jié)構(gòu),而非整體修改圖像的內(nèi)容。

第三,GAN框架要求訓(xùn)練2個神經(jīng)網(wǎng)絡(luò)進(jìn)行對抗,它們的目標(biāo)往往不夠穩(wěn)定,傾向于產(chǎn)生偽影。為了避免漂移和產(chǎn)生更強(qiáng)的偽影,導(dǎo)致甄別更困難,我們需要限定鑒別器的接收區(qū)域?yàn)榫植拷邮眨钦麖垐D片接收,這導(dǎo)致每張圖像都會產(chǎn)生多個局部對抗性損失。此外,我們還引入提高訓(xùn)練穩(wěn)定性的方法,即通過使用精煉圖像而非當(dāng)前“精煉器網(wǎng)絡(luò)”中的現(xiàn)有圖像升級鑒別器。

1.1相關(guān)工作

GAN框架需要2個神經(jīng)網(wǎng)絡(luò)競爭損失,即生成器與鑒別器。其中,生成器網(wǎng)絡(luò)的目標(biāo)是在真實(shí)圖像上繪制隨機(jī)向量,而鑒別器網(wǎng)絡(luò)的目標(biāo)則是區(qū)分生成圖像與真實(shí)圖像。GAN網(wǎng)絡(luò)是由古德弗羅(I. Goodfellow)等人首先引入的,它可以幫助生成逼真的視覺圖像。自從那以來,GAN已經(jīng)有了許多改進(jìn),并被投入到有趣的應(yīng)用中。

(圖2:SimGAN概觀:我們利用“精煉器網(wǎng)絡(luò)”提煉模擬器產(chǎn)生的輸出圖像,并最大限度地減少局部對抗性損失,并進(jìn)行自正則化。

對抗性損失可以欺騙鑒別器網(wǎng)絡(luò),從而令其將合成圖像誤認(rèn)為真實(shí)圖像。而自正則化則會最大限度減少合成圖像與真實(shí)圖像的差異,包括保留注釋信息,并讓精煉圖像被用于訓(xùn)練機(jī)器學(xué)習(xí)模型。“精煉器網(wǎng)絡(luò)”與鑒別器網(wǎng)絡(luò)也會交替升級。)

王(X. Wang)與古普塔(A. Gupta)利用結(jié)構(gòu)化GAN學(xué)習(xí)表面法線,然后將其與Style GAN相結(jié)合,以生成天然的室內(nèi)場景。我們提議使用對抗性訓(xùn)練進(jìn)行遞歸生成模型(recurrent generative model)訓(xùn)練。此外,最近推出的iGAN能夠幫助用戶以交互模式改變圖像。劉(M.-Y. Liu)等人開發(fā)的CoGAN結(jié)合GAN可多模態(tài)聯(lián)合分布圖像,無需要求應(yīng)對圖像的元組,這有利于開發(fā)出聯(lián)合發(fā)布解決方案。而陳(X. Chen)等人開發(fā)的InfoGAN是GAN信息理論的擴(kuò)展,允許有意義的陳述學(xué)習(xí)。

恩杰爾·圖澤爾(Oncel Tuzel)等人利用GAN解決人臉圖像超高分辨率問題。李(C. Li)和王(M. Wand)提議Markovian GAN進(jìn)行有效的紋理合成。洛特爾(W. Lotter)等人在LSTM網(wǎng)絡(luò)中利用對抗性損失進(jìn)行視覺序列預(yù)測。于(L. Yu)等人提議SeqGAN框架,利用GAN強(qiáng)化學(xué)習(xí)。許多近來的問題都顯示出與生成模型領(lǐng)域相關(guān)的問題,比如PixelRNN可利用RNN的softmax損失預(yù)測像素順序。生成網(wǎng)絡(luò)側(cè)重于使用隨機(jī)噪聲矢量生成圖像,與我們的模型相比,其生成的圖像沒有任何標(biāo)注信息,因此也無法用于訓(xùn)練機(jī)器學(xué)習(xí)模型。

許多努力都在探索使用合成數(shù)據(jù)進(jìn)行各種預(yù)測任務(wù),包括視線評估、RGB圖像文本檢測與分類、字體識別、對象檢測、深度圖像中手部姿態(tài)評估、RGB-D場景識別、城市場景語義分割以及人體姿態(tài)評估等。蓋伊登(A. Gaidon)等人的研究表明,利用合成數(shù)據(jù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),可以提高其表現(xiàn)。我們的工作是對這些方法的補(bǔ)充,我們使用未標(biāo)記真實(shí)數(shù)據(jù)提高了模擬器的真實(shí)性。

嘉寧(Y. Ganin)與萊姆皮茨基(V. Lempitsky)在數(shù)據(jù)域適應(yīng)設(shè)置中利用合成數(shù)據(jù),了解合成圖像與真實(shí)圖像域的變化過程中保持不變的特征。王(Z. Wang)等人利用合成和真實(shí)數(shù)據(jù)訓(xùn)練層疊卷積碼自動編碼器,以便了解其字體檢測器ConvNet的低級表示形式。張(X. Zhang)等人學(xué)習(xí)多通道編碼,以便減少真實(shí)數(shù)據(jù)與合成數(shù)據(jù)的域的轉(zhuǎn)變。與經(jīng)典域適應(yīng)方法相反,它采用與特定的特征以便適應(yīng)具體的預(yù)測任務(wù),而我們可通過對抗性訓(xùn)練,彌合圖像分布之間的差距。這種方法使我們能夠生成非常逼真的圖像,可以用于訓(xùn)練任何機(jī)器學(xué)習(xí)模型,并執(zhí)行潛在的更多任務(wù)。

2“模擬+無監(jiān)督”學(xué)習(xí)

模擬+無監(jiān)督學(xué)習(xí)的目標(biāo)是使用一組未標(biāo)記的真實(shí)圖像yi ∈ Y,學(xué)習(xí)可提煉合成圖像X的refiner Rθ(x),其中θ屬于函數(shù)參數(shù)。讓我們用X?表示精煉圖像,然后會得出X?:θ= R(X)。在“模擬+無監(jiān)督”學(xué)習(xí)中,最關(guān)鍵的要求就是精煉圖像X?,以便于其看起來更像真實(shí)圖像,同時保留來自模擬器的注釋信息。為此,我們建議通過最大化減少兩個損失的組合來學(xué)習(xí):

其中,xi是e ith合成訓(xùn)練圖像,X是相應(yīng)的精煉圖像。第一部分是真實(shí)性成本,即向合成圖像中增加真實(shí)性的成本。第二部分則代表著通過最小化合成圖像精煉圖像的差異保存注釋信息的成本。在下面的章節(jié)中,我們會展開這個公式,并提供優(yōu)化θ的算法。

2.1對抗性損失

為了向合成圖像中添加真實(shí)性,我們需要在合成圖形和真實(shí)圖像的分部之間建立起聯(lián)系。在理想情況下,精煉機(jī)可能無法將給定的圖像分類為真實(shí)圖像還是高度精煉圖像。這就需要使用對抗性的鑒頻器,網(wǎng)絡(luò)Dφ,它可訓(xùn)練分辨圖像到底是真實(shí)圖像還是精煉圖像,而φ是鑒別器網(wǎng)絡(luò)參數(shù)。對抗性損失訓(xùn)練refiner networkR,它負(fù)責(zé)欺騙D網(wǎng)絡(luò),令其將精煉圖像誤認(rèn)為是真實(shí)圖像。利用GAN方法,我們建造了2個神經(jīng)網(wǎng)絡(luò)參與的極限博弈模型,并升級“精煉器網(wǎng)絡(luò)”Rθ和鑒別器網(wǎng)絡(luò)Dφ。接下來,我們更精確地描述這種模型。鑒別器網(wǎng)絡(luò)通過最大限度地減少以下?lián)p失來更新參數(shù):

這相當(dāng)于兩級分類問題產(chǎn)生的交叉熵誤差,其中Dφ(.)輸入的是合成圖像,而1 ? Dφ(.)則是真實(shí)圖像。至此,我們實(shí)現(xiàn)了Dφ作為ConvNet的最后輸出層,樣本很可能是精煉圖像。為了訓(xùn)練這個網(wǎng)絡(luò),每個小批量隨機(jī)抽取的樣本都由精煉合成圖像和真實(shí)圖像組成。對于每個yj來說,交叉熵的目標(biāo)標(biāo)簽損耗層為0,而每個x?i都對應(yīng)1。然后通過隨機(jī)梯度下降(SGD)方式,φ會隨著小批量梯度損失而升級。在我們的實(shí)踐中,真實(shí)性損失函數(shù)使用訓(xùn)練有素的鑒別器網(wǎng)路D如下:

通過最小化減小損失函數(shù),“精煉器網(wǎng)絡(luò)”的力量促使鑒別器無法分辨出精煉圖像就是合成圖像。除了產(chǎn)生逼真的圖像外,“精煉器網(wǎng)絡(luò)”應(yīng)該保存模擬器的注釋信息。舉例來說,用于評估視線的學(xué)習(xí)轉(zhuǎn)變不該改變凝視的方向,手部姿勢評估不應(yīng)該改變肘部的位置。這是訓(xùn)練機(jī)器學(xué)習(xí)模型使用配有模擬器注釋信息的精煉圖像的必要組成部分。為了實(shí)現(xiàn)這個目標(biāo),我們建議使用自正則化,它可以最大限度地減少合成圖像與精煉圖像之間的差異。

(算法1)

(圖3:局部對抗性損失的圖示。鑒別器網(wǎng)絡(luò)輸出wxh概率圖。對抗損失函數(shù)是局部塊上的交叉熵?fù)p失的總和。)

因此在我們的執(zhí)行中,整體精煉損失函數(shù)(1)為:

(4)在||.||1是L1常模時,我們將Rθ作為一個完全卷積的神經(jīng)網(wǎng)絡(luò),而無需躍進(jìn)或池化。在像素級別上修改合成圖像,而不是整體地修改圖像內(nèi)容。例如在完全連接地編碼器網(wǎng)絡(luò)中便會如此,保留全局結(jié)構(gòu)合注釋。我們通過交替地最小化LR(θ) 和LD(φ)來學(xué)習(xí)精化器和鑒別器參數(shù)。在更新Rθ的參數(shù)時,我們保持φ固定不變,而在更新Dφ時,則要保持θ不變。我們在算法1中描述了整個訓(xùn)練過程。

(圖4:使用精細(xì)圖像歷史示意圖。相關(guān)信息請參閱文本描述。)

2.2本地對抗損失

精煉網(wǎng)絡(luò)另一個關(guān)鍵要求是,它應(yīng)該學(xué)習(xí)模擬實(shí)際圖像特性,而不引入任何偽影。當(dāng)我們訓(xùn)練強(qiáng)鑒別器網(wǎng)絡(luò)時,精煉網(wǎng)絡(luò)傾向于過度強(qiáng)調(diào)某些圖像特征以欺騙當(dāng)前鑒別器網(wǎng)絡(luò),導(dǎo)致偏差和產(chǎn)生偽影。關(guān)鍵是任何我們從精化圖像中采樣的本地補(bǔ)丁都應(yīng)該具有與真實(shí)圖像相類似的統(tǒng)計。由此我們可以定制本地鑒別器網(wǎng)絡(luò)對本地圖像補(bǔ)丁進(jìn)行分類,而不是定義全局鑒別器網(wǎng)絡(luò)。

這不僅限制了接受域,還因此限制了鑒別器器網(wǎng)絡(luò)的容量,并且為每個圖像提供更多樣本以供學(xué)習(xí)鑒別器網(wǎng)絡(luò)。同時由于每個圖像由多個實(shí)際損失值,它還改善了精煉網(wǎng)絡(luò)的訓(xùn)練。

在我們的執(zhí)行中,我們將鑒別器器D設(shè)計成一個完全卷積網(wǎng)絡(luò),輸出偽類w × h概率圖。在后者中w × h是圖像中本地補(bǔ)丁的數(shù)量。在訓(xùn)練精煉網(wǎng)絡(luò)時,我們將w×h本地補(bǔ)丁的交叉熵?fù)p失值求和,如圖3所示。

2.3使用精化圖像的歷史記錄更新鑒別器器

對抗訓(xùn)練的對抗訓(xùn)練的另一個問題是鑒別器器網(wǎng)絡(luò)只關(guān)注最新的精細(xì)圖像。 這可能導(dǎo)致(i)與對抗訓(xùn)練分歧,以及(ii)精煉網(wǎng)絡(luò)重新引入鑒別器已經(jīng)忘記的工件。在整個訓(xùn)練過程中的任何時間由精煉網(wǎng)絡(luò)生成的任何精細(xì)圖像對于鑒別器器來說都是偽造的圖像。因此,鑒別器應(yīng)該有能力將這些圖像識別為假。基于這一觀察,我們引入了一種方法,通過使用精細(xì)圖像的歷史來提高對抗訓(xùn)練的穩(wěn)定性,而不僅僅是在當(dāng)前小批次中小修小改。我們對算法1稍作改進(jìn),增加對先前網(wǎng)絡(luò)產(chǎn)生的精細(xì)圖像的緩沖。設(shè)B為此緩沖的大小,設(shè)b為算法1中使用的迷你批次大小。

(圖5:SimGAN輸出的圖像示例。左為MPIIGaze采集的實(shí)拍圖像,右為優(yōu)化后的UnityEye合成圖像。從圖中可以看出精細(xì)合成圖像中的皮膚紋理和虹膜區(qū)都更近似真實(shí)而非合成圖像。)

(圖6:帶有兩個nxn卷積層的ResNet塊,每個都都具有f特征圖。)

在鑒別器器訓(xùn)練的每次迭代中,我們通過對來自當(dāng)前精煉網(wǎng)絡(luò)的b/2圖像進(jìn)行采樣,以及從緩沖區(qū)采集額外b/2圖像,從而更新參數(shù)φ。保持緩沖區(qū)B大小固定,在每次迭代之后,我們使用新產(chǎn)生的精細(xì)圖像隨機(jī)替換緩沖區(qū)中的b/2樣本。該過程在圖4中標(biāo)示出。

3.實(shí)驗(yàn)

我們使用MPIIGaze [40,43]上的外貌估計數(shù)據(jù)集和紐約大學(xué)的手勢數(shù)據(jù)集 [35]來評估我們的方法。我們在所有實(shí)驗(yàn)中使用完全卷積的精煉網(wǎng)絡(luò)與ResNet塊(圖6)。

3.1基于外貌的注視估計

注視估計是許多人機(jī)交互(HCI)任務(wù)的關(guān)鍵因素。然而,直接由眼睛圖像進(jìn)行估計是有挑戰(zhàn)性的,特別是在圖像質(zhì)量不佳時。例如智能手機(jī)或筆記本電腦前置攝像頭采集到的眼睛圖像。因此,為了生成大量注釋數(shù)據(jù),最近幾次方法[40,43]用大量合成數(shù)據(jù)訓(xùn)練它們的模型。在這里,我們展示使用SimGAN生成的精細(xì)合成圖像訓(xùn)練顯著提高了任務(wù)的表現(xiàn)。

注視估計數(shù)據(jù)集包括使用眼睛注視合成器UnityEyes生成的1200萬樣本,以及來自MPIIGaze數(shù)據(jù)集的21,000實(shí)拍樣本。MPIIGaze的圖像樣本都是在各種照明條件不理想情況下捕捉到的圖像。而UnityEyes圖像都是在同一渲染環(huán)境下生成。

定性結(jié)果:圖5展示了合成生成的眼睛注視圖像以及經(jīng)過處理的實(shí)拍圖像。如圖所示,我們觀察到合成圖像的顯著質(zhì)量改進(jìn):SimGAN成功捕獲皮膚紋理,傳感器噪點(diǎn)以及虹膜區(qū)的外觀。請注意,我們的方法在改善真實(shí)性的同時保留了注釋信息(注視方向)。

‘視覺圖靈測試’:為了定量評估精細(xì)圖像的視覺質(zhì)量,我們設(shè)計了一個簡單的用戶研究,要求受試者對圖像是屬于實(shí)拍或是合成進(jìn)行區(qū)分。每個受試者被展示50張實(shí)拍圖像和50張合成圖像。在試驗(yàn)中,受試者不斷觀看20個真假混雜的圖像,最終受試者很難分辨真實(shí)圖像和精細(xì)圖像之間的差異。在我們的總體分析中,10個受試者在1000次試驗(yàn)中正確率只有517次(p=0.148),跟隨機(jī)選差不多。表1展示了混淆矩陣。相比之下,當(dāng)使用原始圖像和實(shí)拍圖像進(jìn)行測試時,我們給每個受試者展示10個實(shí)拍和10個合成圖像,這種情況下受試者在200此實(shí)驗(yàn)中選對了162次(p≤10-8),結(jié)果明顯優(yōu)于隨機(jī)選擇。

(表1:采用真實(shí)圖像和合成圖像進(jìn)行的“視覺圖靈測試”。平均人類分類精度為51.7%,表明自動生成的精細(xì)圖像在視覺上已經(jīng)達(dá)到以假亂真的程度。)

(圖7:使用MPIIGaze實(shí)拍樣本進(jìn)行的眼睛注視估計的定量結(jié)果。曲線描述了不同測試數(shù)量下系統(tǒng)預(yù)估的誤差。圖示中使用精細(xì)圖像而不是合成圖像能顯著提高系統(tǒng)表現(xiàn)。)

定量結(jié)果:我們訓(xùn)練了一個與[43]類似的簡單的卷積神經(jīng)網(wǎng)絡(luò)(CNN)來對眼睛的注視方向進(jìn)行預(yù)測。我們在UnityEyes上訓(xùn)練,并在MPIIGaze上進(jìn)行測試。圖7和表2比較了CNN分別使用合成數(shù)據(jù)以及SimGAN生成的精細(xì)數(shù)據(jù)的不同表現(xiàn)。我們觀察到SimGAN輸出訓(xùn)練的表現(xiàn)有很大的提高,絕對百分比提高了22.3%。我們還發(fā)現(xiàn)訓(xùn)練結(jié)果和訓(xùn)練數(shù)據(jù)呈正相關(guān)——此處的4x指的是培訓(xùn)數(shù)據(jù)集的100%。定量評估證實(shí)了圖5中觀察到的定性改進(jìn)的價值,并且表明使用SimGAN能使機(jī)器學(xué)習(xí)模型有更好的表現(xiàn)。表3展示了同現(xiàn)有技術(shù)的比較,在精細(xì)圖像上訓(xùn)練CNN的表現(xiàn)優(yōu)于MPIGaze上的現(xiàn)有技術(shù),相對改善了21%。這個巨大的改進(jìn)顯示了我們的方法在許多HCI任務(wù)中的實(shí)際價值。

實(shí)施細(xì)節(jié):精煉網(wǎng)絡(luò)Rθ是一個殘差網(wǎng)絡(luò) (ResNet) 。每個ResNet塊由兩個卷積層組成,包含63個特征圖,如圖6所示。大小為55x35的輸入圖像和3x3的過濾器進(jìn)行卷積,輸出64個特征圖。輸出通過4個ResNet塊傳遞。最后ResNet塊的輸出被傳遞到1x1卷積層,產(chǎn)生對應(yīng)于精細(xì)合成圖像的1個特征圖。

(表2: 使用合成數(shù)據(jù)和SimGAN輸出進(jìn)行訓(xùn)練的比較。在無需監(jiān)督真實(shí)數(shù)據(jù)的情況下,使用SimGAN輸出的圖像進(jìn)行訓(xùn)練表現(xiàn)出22.3%的優(yōu)勢。)

(表3: SimGAN與MPIIGaze現(xiàn)有技術(shù)進(jìn)行比較。R=真實(shí)圖像,S=合成圖像。誤差是以度為單位的平均眼睛注視估計誤差。對精細(xì)圖像的訓(xùn)練帶來了2.1度的改進(jìn),相對現(xiàn)有技術(shù)提高了21%。)

鑒別器器網(wǎng)絡(luò)Dφ包含5個擴(kuò)展層和2個最大合并層,分別為:(1)Conv3x3,stride = 2,特征映射= 96,(2)Conv3x3,stride = 2,特征映射= 64,( 3)MaxPool3x3,stride = 1,(4)Conv3x3,stride = 1,特征映射= 32,(5)Conv1x1,stride = 1,特征映射= 32,(6)Conv1x1,stride = 2,(7)Softmax。

我們的對抗網(wǎng)絡(luò)是完全卷積的,并且已經(jīng)被設(shè)計為使Rθ和Dφ中的最后層神經(jīng)元的接受域是相似的。我們首先對Rθ網(wǎng)絡(luò)進(jìn)行1000步的自正則化損失訓(xùn)練,Dφ為200步。然后對于Dφ的每次更新,對應(yīng)在算法中更新Rθ兩次。即Kd被設(shè)置為1,Kg被設(shè)置為50。

眼睛注視估計網(wǎng)絡(luò)同[43]類似,不過略作修改以使其更好地利用我們的大型合成數(shù)據(jù)集。輸入是35x55的灰度圖,通過5個卷積層,然后是3個完全連接的層,最后一個編碼三維注視向量:(1)Conv3x3,特征圖= 32,(2)Conv3x3 ,特征映射= 32,(3)Conv3×3,特征映射= 64,(4)Max- Pool3x3,stride = 2,(5)Conv3x3,特征映射= 80,(6)Conv3x3, MaxPool2x2,stride = 2,(8)FC9600,(9)FC1000,(10)FC3,(11)Eu- clidean loss。所有網(wǎng)絡(luò)都使用恒定的0.001學(xué)習(xí)速率和512批量大小進(jìn)行訓(xùn)練,直到驗(yàn)證錯誤收斂。

3.2關(guān)于深度圖像的手勢圖像模擬

下一步,我們將用這宗方法對各種手勢的深度圖像進(jìn)行模擬。在研究中,主要使用了紐約大學(xué)所提供的NYU手勢數(shù)據(jù)庫,其中包含72757個訓(xùn)練樣本以及使用3臺Kinect相機(jī)所采集的8251個測試樣本,其中每個測試樣本包括一個正面手勢圖像以及兩個側(cè)面手勢圖像。而每一個深度圖像樣本都對手勢信息進(jìn)行了標(biāo)記,從而生成了合成圖像。圖10展示了手勢數(shù)據(jù)庫中的一個樣本。我們對數(shù)據(jù)庫樣本進(jìn)行了預(yù)處理,利用合成圖像從真實(shí)圖像中提取了相應(yīng)的像素點(diǎn)位。在使用深度學(xué)習(xí)網(wǎng)絡(luò)ConvNet進(jìn)行處理之前,每個圖像樣本的分辨率大小被統(tǒng)一調(diào)整為224*224,背景值設(shè)置為零,前景值設(shè)置為原始深度值減2000。(此時假設(shè)背景分辨率為2000)。

圖10:NYU手勢數(shù)據(jù)庫。左圖為深度圖像樣本;右圖為處理后的合成圖像。

定性描述:圖11顯示了“生成對抗網(wǎng)絡(luò)”( SimGAN)對手勢數(shù)據(jù)庫的計算結(jié)果。由圖可知,真實(shí)深度圖像的噪聲已經(jīng)邊緣化,且分布不連續(xù)。SimGAN能夠有效對原有圖像噪聲進(jìn)行學(xué)習(xí)并模擬,從而產(chǎn)生出更加真實(shí)精細(xì)的合成圖像,且不需要在真實(shí)圖像上做出任何標(biāo)記或注釋。

圖11: NYU手勢數(shù)據(jù)庫的精細(xì)測試圖像示例。左圖為真實(shí)圖像實(shí)像,右圖上為合成圖像,右圖下為來自蘋果生成對抗網(wǎng)絡(luò)的相應(yīng)精細(xì)化輸出圖像。

實(shí)際圖像中的主要噪聲源是非平滑的邊緣噪聲。 學(xué)習(xí)網(wǎng)絡(luò)能夠?qū)W習(xí)模擬真實(shí)圖像中存在的噪聲,重要的是不需要任何標(biāo)記和注釋。

定量分析:

我們采用一種類似于Stacked Hourglass人體姿態(tài)算法的CNN仿真算法應(yīng)用于真實(shí)圖像、合成圖像以及精細(xì)化合成圖像處理,與NYU手勢數(shù)據(jù)庫中的測試樣本進(jìn)行對比。通過對其中14個手關(guān)節(jié)變換進(jìn)行算法訓(xùn)練。為了避免偏差,我們用單層神經(jīng)網(wǎng)絡(luò)來分析算法對合成圖像的改進(jìn)效果。圖12和表4顯示了關(guān)于算法對手勢數(shù)據(jù)庫進(jìn)行處理的定量結(jié)果。其中由SimGAN輸出的精細(xì)化合成圖像顯著優(yōu)于基于真實(shí)圖像進(jìn)行訓(xùn)練而產(chǎn)生的圖像,其更為逼真,比標(biāo)準(zhǔn)合成圖像高出了8.8%,其中仿真 模擬輸出的注釋成本為零。同時要注意的是,3X代表圖像訓(xùn)練選取了所有角度。

圖12:手勢估計的定量結(jié)果,關(guān)于NYU手勢測試集的真實(shí)深度圖像。

圖表顯示圖像與背景之間函數(shù)的累積曲線。可見,SimGAN輸出的精細(xì)化合成圖像顯著優(yōu)于基于真實(shí)圖像進(jìn)行訓(xùn)練而產(chǎn)生的圖像,其更為逼真,比標(biāo)準(zhǔn)合成圖像高出了8.8%。 重要的是,我們的學(xué)習(xí)網(wǎng)絡(luò)不需要對真實(shí)圖像進(jìn)行標(biāo)記。

表4:通過訓(xùn)練生成各種手勢圖像的相似度。

Synthetic Data為一般網(wǎng)絡(luò)訓(xùn)練產(chǎn)生的合成圖像,Real Data為真實(shí)圖像,Refined Synthetic Data為生成對抗網(wǎng)絡(luò)SimGAN輸出的精細(xì)化合成圖像。3X表示對真實(shí)圖像進(jìn)行多角度模擬。

實(shí)現(xiàn)細(xì)節(jié):關(guān)于手勢圖像判別的架構(gòu)與眼睛圖像相同,但輸入圖像分辨率為224*224,濾波器大小為7*7,殘差網(wǎng)絡(luò)值為10。判別網(wǎng)絡(luò)D如下:(1)Conv7x7,

stride=4, feature maps=96, (2) Conv5x5, stride=2, feature maps=64, (3) MaxPool3x3, stride=2, (4) Conv3x3,stride=2, feature maps=32, (5) Conv1x1, stride=1, feature maps=32, (6) Conv1x1, stride=1, feature maps=2,(7) Softmax。

首先,我們會對R網(wǎng)絡(luò)進(jìn)行自我規(guī)則化訓(xùn)練500次,隨后引入D網(wǎng)絡(luò)訓(xùn)練200次;隨后,每更新一次D網(wǎng)絡(luò),就相應(yīng)將R網(wǎng)絡(luò)進(jìn)行兩次更新。在手勢估計中,我們采用Stacked Hourglass Net人體姿態(tài)算法輸出大小為64*64的熱點(diǎn)圖。我們在網(wǎng)絡(luò)學(xué)習(xí)中引入[-20,20]的隨機(jī)數(shù)據(jù)集來對不同角度的圖像進(jìn)行訓(xùn)練。直至驗(yàn)證誤差有效收斂時,網(wǎng)絡(luò)訓(xùn)練結(jié)束。

3.3對抗訓(xùn)練的修正分析

首先我們比較了本地化對抗訓(xùn)練以及全局對抗訓(xùn)練的圖像偏差。在全局對抗中,判別網(wǎng)絡(luò)使用了完全連接層,從而使整個圖像相對于更加精細(xì)。而本地化對抗訓(xùn)練則使得生成的圖像更為真實(shí),如圖8所示。

圖8:左為全局對抗訓(xùn)練結(jié)果,右為本地化對抗訓(xùn)練結(jié)果。

顯示了全局對抗訓(xùn)練與本地化對抗訓(xùn)練的結(jié)果偏差。左圖生成的圖像更精細(xì)但不真實(shí),右圖生成的圖像相對真實(shí)度更高。

接下來,在圖9中,顯示了使用反復(fù)訓(xùn)練的歷史精細(xì)化圖像對判別網(wǎng)絡(luò)進(jìn)行更新,并將其與標(biāo)準(zhǔn)對抗生成的合成圖像進(jìn)行比較的結(jié)果。如圖所示,使用反復(fù)訓(xùn)練的歷史精細(xì)化圖像刻產(chǎn)生更為真實(shí)的陰影,譬如在標(biāo)準(zhǔn)對抗訓(xùn)練中,眼睛角落里沒有陰影。

圖9:使用歷史精細(xì)圖像對判別網(wǎng)絡(luò)進(jìn)行更新的結(jié)果。

左圖: 標(biāo)準(zhǔn)合成圖像;中圖:使用歷史數(shù)據(jù)對判別網(wǎng)絡(luò)進(jìn)行更新后的圖像結(jié)果;右圖:使用近期歷史數(shù)據(jù)對判別網(wǎng)絡(luò)進(jìn)行更新的圖像結(jié)果。如圖所示,使用反復(fù)訓(xùn)練的歷史精細(xì)化圖像刻產(chǎn)生更為真實(shí)的陰影。

4結(jié)論以及下一步工作

在文中,我們提出了一種“模擬+無監(jiān)督”的機(jī)器學(xué)習(xí)方法,能夠有效提高模擬圖像的真實(shí)感。我們描述了一種新的生成對抗網(wǎng)絡(luò)SimGAN,并將其應(yīng)用于未經(jīng)標(biāo)注的真實(shí)圖像,獲得了最好的結(jié)果。下一步,我們將繼續(xù)探索為合成圖像建立更為逼真的精細(xì)圖像,同時研究如何對視頻進(jìn)行處理。

日前,蘋果發(fā)布了其首份關(guān)于人工智能(AI)的學(xué)術(shù)論文——“通過對抗網(wǎng)絡(luò)使用模擬和非監(jiān)督圖像訓(xùn)練”(Learning from Simulated and Unsupervised Images through Adversarial Training),其中主要描述了在計算機(jī)視覺系統(tǒng)中提高圖像識別的方法,而這或許也標(biāo)志著蘋果公司研究的新方向。

下面就是這篇報告的全文:

摘要

隨著圖形技術(shù)不斷進(jìn)步,利用合成圖像訓(xùn)練機(jī)器學(xué)習(xí)模型變得越來越容易,這可以幫助避免注釋圖像的昂貴支出。然而,通過合成圖像訓(xùn)練機(jī)器學(xué)習(xí)模型可能無法達(dá)到令人滿意的效果,因?yàn)楹铣蓤D像與真實(shí)圖像之間畢竟存在區(qū)別。為了減少這種差異,我們提出“模擬+無監(jiān)督”學(xué)習(xí)方法,即通過計算機(jī)生成圖像或合成圖像來訓(xùn)練算法的圖像識別能力。

事實(shí)上,這種“模擬+無監(jiān)督”學(xué)習(xí)需要將無標(biāo)注的真實(shí)圖像數(shù)據(jù)與已經(jīng)注釋的合成圖像相結(jié)合。在很大程度上,它需要依賴生成式對抗網(wǎng)絡(luò)(GAN)的新機(jī)器學(xué)習(xí)技術(shù),它可通過兩個神經(jīng)網(wǎng)絡(luò)相互對抗以生成更加真實(shí)的圖像。我們對標(biāo)準(zhǔn)GAN算法進(jìn)行了多處關(guān)鍵性修改,以保留注釋、避免偽影以及穩(wěn)定性訓(xùn)練:自正則化(self-regularization)-局部對抗性損失-使用精煉圖像升級鑒別器。

我們發(fā)現(xiàn),這個過程可以產(chǎn)生高度逼真的圖像,在質(zhì)量上和用戶研究方面都已經(jīng)獲得證實(shí)。我們已經(jīng)通過訓(xùn)練模型評估視線水平和手勢姿態(tài),對計算機(jī)生成圖像進(jìn)行定量評估。通過使用合成圖像,我們的圖像識別算法已經(jīng)取得了巨大進(jìn)步。在沒有使用任何標(biāo)準(zhǔn)真實(shí)數(shù)據(jù)的情況下,我們在MPIIGaze數(shù)據(jù)集中獲得了最高水平的結(jié)果。

引言

隨著最近高容量深度神經(jīng)學(xué)習(xí)網(wǎng)絡(luò)的崛起,大規(guī)模標(biāo)注訓(xùn)練數(shù)據(jù)集正變得日益重要??墒?,標(biāo)準(zhǔn)數(shù)量龐大的數(shù)據(jù)集成本非常高,而且相當(dāng)耗費(fèi)時間。為此,使用合成圖像而非真實(shí)圖像訓(xùn)練算法的想法開始出現(xiàn),因?yàn)樽⑨屢呀?jīng)可實(shí)現(xiàn)自動化。利用XBOX360外設(shè)Kinect評估人體姿勢以及其他任務(wù),都是使用合成數(shù)據(jù)完成的。

(圖1:“模擬+無監(jiān)督”學(xué)習(xí):通過計算機(jī)生成圖像或合成圖像來訓(xùn)練算法的圖像識別能力)

然而,由于合成圖像與真實(shí)圖像之間存在差距,使用合成圖像訓(xùn)練算法可能產(chǎn)生很多問題。因?yàn)楹铣蓤D像通常不夠真實(shí),導(dǎo)致神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)僅僅能夠了解到合成圖像中的細(xì)節(jié),并不能完整地識別出真實(shí)圖像,進(jìn)而也無法為算法提供精確的學(xué)習(xí)。一種解決方案就是改進(jìn)模擬器,可是增加真實(shí)性的計算往往非常昂貴,渲染器的設(shè)計也更加困難。此外,即使最頂級的渲染器可能也無法模仿真實(shí)圖像中的所有特征。因此,缺少真實(shí)性可能導(dǎo)致算法過度擬合合成圖像中不真實(shí)的細(xì)節(jié)。

在這篇論文中,我們提出“模擬+無監(jiān)督”學(xué)習(xí)的方法,其目的就是使用未標(biāo)注真實(shí)數(shù)據(jù)的模擬器提高合成圖像的真實(shí)性。提高真實(shí)性可更好地幫助訓(xùn)練機(jī)器學(xué)習(xí)模型,而且無需收集任何數(shù)據(jù),也無需人類繼續(xù)標(biāo)注圖像。除了增加真實(shí)性,“模擬+無監(jiān)督”學(xué)習(xí)還應(yīng)該保留注釋信息以用于訓(xùn)練機(jī)器學(xué)習(xí)模型,比如圖一中的注視方向應(yīng)被保留下來。此外,由于機(jī)器學(xué)習(xí)模型對合成數(shù)據(jù)中的偽影非常敏感,“模擬+無監(jiān)督”學(xué)習(xí)也應(yīng)該產(chǎn)生沒有偽影的圖像。

我們?yōu)?ldquo;模擬+無監(jiān)督”學(xué)習(xí)開發(fā)出新的方法,我們稱之為SimGAN,它可以利用我們稱之為“精煉器網(wǎng)絡(luò)(refiner network)”的神經(jīng)網(wǎng)絡(luò)從模擬器中提煉合成圖像。圖二中展示了這種方法的概述:第一,黑盒子模擬器中生成合成圖像,然后利用“精煉器網(wǎng)絡(luò)”對其進(jìn)行提煉。為了增加真實(shí)性,也就是“模擬+無監(jiān)督”學(xué)習(xí)算法的首要需求,我們需要利用類似生成式對抗網(wǎng)絡(luò)(GAN)來訓(xùn)練“精煉器網(wǎng)絡(luò)”,進(jìn)而產(chǎn)生判別網(wǎng)絡(luò)無法區(qū)分真假的精煉圖像。

第二,為了保留合成圖像上的注釋信息,我們需要利用“自正則化損失”彌補(bǔ)對抗性損失,在合成圖像和精煉圖像之間進(jìn)行修改。此外,我們還利用完全卷積神經(jīng)網(wǎng)絡(luò),在像素水平方面進(jìn)行操作,并保留全局結(jié)構(gòu),而非整體修改圖像的內(nèi)容。

第三,GAN框架要求訓(xùn)練2個神經(jīng)網(wǎng)絡(luò)進(jìn)行對抗,它們的目標(biāo)往往不夠穩(wěn)定,傾向于產(chǎn)生偽影。為了避免漂移和產(chǎn)生更強(qiáng)的偽影,導(dǎo)致甄別更困難,我們需要限定鑒別器的接收區(qū)域?yàn)榫植拷邮?,而非整張圖片接收,這導(dǎo)致每張圖像都會產(chǎn)生多個局部對抗性損失。此外,我們還引入提高訓(xùn)練穩(wěn)定性的方法,即通過使用精煉圖像而非當(dāng)前“精煉器網(wǎng)絡(luò)”中的現(xiàn)有圖像升級鑒別器。

1.1相關(guān)工作

GAN框架需要2個神經(jīng)網(wǎng)絡(luò)競爭損失,即生成器與鑒別器。其中,生成器網(wǎng)絡(luò)的目標(biāo)是在真實(shí)圖像上繪制隨機(jī)向量,而鑒別器網(wǎng)絡(luò)的目標(biāo)則是區(qū)分生成圖像與真實(shí)圖像。GAN網(wǎng)絡(luò)是由古德弗羅(I. Goodfellow)等人首先引入的,它可以幫助生成逼真的視覺圖像。自從那以來,GAN已經(jīng)有了許多改進(jìn),并被投入到有趣的應(yīng)用中。

(圖2:SimGAN概觀:我們利用“精煉器網(wǎng)絡(luò)”提煉模擬器產(chǎn)生的輸出圖像,并最大限度地減少局部對抗性損失,并進(jìn)行自正則化。

對抗性損失可以欺騙鑒別器網(wǎng)絡(luò),從而令其將合成圖像誤認(rèn)為真實(shí)圖像。而自正則化則會最大限度減少合成圖像與真實(shí)圖像的差異,包括保留注釋信息,并讓精煉圖像被用于訓(xùn)練機(jī)器學(xué)習(xí)模型。“精煉器網(wǎng)絡(luò)”與鑒別器網(wǎng)絡(luò)也會交替升級。)

王(X. Wang)與古普塔(A. Gupta)利用結(jié)構(gòu)化GAN學(xué)習(xí)表面法線,然后將其與Style GAN相結(jié)合,以生成天然的室內(nèi)場景。我們提議使用對抗性訓(xùn)練進(jìn)行遞歸生成模型(recurrent generative model)訓(xùn)練。此外,最近推出的iGAN能夠幫助用戶以交互模式改變圖像。劉(M.-Y. Liu)等人開發(fā)的CoGAN結(jié)合GAN可多模態(tài)聯(lián)合分布圖像,無需要求應(yīng)對圖像的元組,這有利于開發(fā)出聯(lián)合發(fā)布解決方案。而陳(X. Chen)等人開發(fā)的InfoGAN是GAN信息理論的擴(kuò)展,允許有意義的陳述學(xué)習(xí)。

恩杰爾·圖澤爾(Oncel Tuzel)等人利用GAN解決人臉圖像超高分辨率問題。李(C. Li)和王(M. Wand)提議Markovian GAN進(jìn)行有效的紋理合成。洛特爾(W. Lotter)等人在LSTM網(wǎng)絡(luò)中利用對抗性損失進(jìn)行視覺序列預(yù)測。于(L. Yu)等人提議SeqGAN框架,利用GAN強(qiáng)化學(xué)習(xí)。許多近來的問題都顯示出與生成模型領(lǐng)域相關(guān)的問題,比如PixelRNN可利用RNN的softmax損失預(yù)測像素順序。生成網(wǎng)絡(luò)側(cè)重于使用隨機(jī)噪聲矢量生成圖像,與我們的模型相比,其生成的圖像沒有任何標(biāo)注信息,因此也無法用于訓(xùn)練機(jī)器學(xué)習(xí)模型。

許多努力都在探索使用合成數(shù)據(jù)進(jìn)行各種預(yù)測任務(wù),包括視線評估、RGB圖像文本檢測與分類、字體識別、對象檢測、深度圖像中手部姿態(tài)評估、RGB-D場景識別、城市場景語義分割以及人體姿態(tài)評估等。蓋伊登(A. Gaidon)等人的研究表明,利用合成數(shù)據(jù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),可以提高其表現(xiàn)。我們的工作是對這些方法的補(bǔ)充,我們使用未標(biāo)記真實(shí)數(shù)據(jù)提高了模擬器的真實(shí)性。

嘉寧(Y. Ganin)與萊姆皮茨基(V. Lempitsky)在數(shù)據(jù)域適應(yīng)設(shè)置中利用合成數(shù)據(jù),了解合成圖像與真實(shí)圖像域的變化過程中保持不變的特征。王(Z. Wang)等人利用合成和真實(shí)數(shù)據(jù)訓(xùn)練層疊卷積碼自動編碼器,以便了解其字體檢測器ConvNet的低級表示形式。張(X. Zhang)等人學(xué)習(xí)多通道編碼,以便減少真實(shí)數(shù)據(jù)與合成數(shù)據(jù)的域的轉(zhuǎn)變。與經(jīng)典域適應(yīng)方法相反,它采用與特定的特征以便適應(yīng)具體的預(yù)測任務(wù),而我們可通過對抗性訓(xùn)練,彌合圖像分布之間的差距。這種方法使我們能夠生成非常逼真的圖像,可以用于訓(xùn)練任何機(jī)器學(xué)習(xí)模型,并執(zhí)行潛在的更多任務(wù)。

2“模擬+無監(jiān)督”學(xué)習(xí)

模擬+無監(jiān)督學(xué)習(xí)的目標(biāo)是使用一組未標(biāo)記的真實(shí)圖像yi ∈ Y,學(xué)習(xí)可提煉合成圖像X的refiner Rθ(x),其中θ屬于函數(shù)參數(shù)。讓我們用X?表示精煉圖像,然后會得出X?:θ= R(X)。在“模擬+無監(jiān)督”學(xué)習(xí)中,最關(guān)鍵的要求就是精煉圖像X?,以便于其看起來更像真實(shí)圖像,同時保留來自模擬器的注釋信息。為此,我們建議通過最大化減少兩個損失的組合來學(xué)習(xí):

其中,xi是e ith合成訓(xùn)練圖像,X是相應(yīng)的精煉圖像。第一部分是真實(shí)性成本,即向合成圖像中增加真實(shí)性的成本。第二部分則代表著通過最小化合成圖像精煉圖像的差異保存注釋信息的成本。在下面的章節(jié)中,我們會展開這個公式,并提供優(yōu)化θ的算法。

2.1對抗性損失

為了向合成圖像中添加真實(shí)性,我們需要在合成圖形和真實(shí)圖像的分部之間建立起聯(lián)系。在理想情況下,精煉機(jī)可能無法將給定的圖像分類為真實(shí)圖像還是高度精煉圖像。這就需要使用對抗性的鑒頻器,網(wǎng)絡(luò)Dφ,它可訓(xùn)練分辨圖像到底是真實(shí)圖像還是精煉圖像,而φ是鑒別器網(wǎng)絡(luò)參數(shù)。對抗性損失訓(xùn)練refiner networkR,它負(fù)責(zé)欺騙D網(wǎng)絡(luò),令其將精煉圖像誤認(rèn)為是真實(shí)圖像。利用GAN方法,我們建造了2個神經(jīng)網(wǎng)絡(luò)參與的極限博弈模型,并升級“精煉器網(wǎng)絡(luò)”Rθ和鑒別器網(wǎng)絡(luò)Dφ。接下來,我們更精確地描述這種模型。鑒別器網(wǎng)絡(luò)通過最大限度地減少以下?lián)p失來更新參數(shù):

這相當(dāng)于兩級分類問題產(chǎn)生的交叉熵誤差,其中Dφ(.)輸入的是合成圖像,而1 ? Dφ(.)則是真實(shí)圖像。至此,我們實(shí)現(xiàn)了Dφ作為ConvNet的最后輸出層,樣本很可能是精煉圖像。為了訓(xùn)練這個網(wǎng)絡(luò),每個小批量隨機(jī)抽取的樣本都由精煉合成圖像和真實(shí)圖像組成。對于每個yj來說,交叉熵的目標(biāo)標(biāo)簽損耗層為0,而每個x?i都對應(yīng)1。然后通過隨機(jī)梯度下降(SGD)方式,φ會隨著小批量梯度損失而升級。在我們的實(shí)踐中,真實(shí)性損失函數(shù)使用訓(xùn)練有素的鑒別器網(wǎng)路D如下:

通過最小化減小損失函數(shù),“精煉器網(wǎng)絡(luò)”的力量促使鑒別器無法分辨出精煉圖像就是合成圖像。除了產(chǎn)生逼真的圖像外,“精煉器網(wǎng)絡(luò)”應(yīng)該保存模擬器的注釋信息。舉例來說,用于評估視線的學(xué)習(xí)轉(zhuǎn)變不該改變凝視的方向,手部姿勢評估不應(yīng)該改變肘部的位置。這是訓(xùn)練機(jī)器學(xué)習(xí)模型使用配有模擬器注釋信息的精煉圖像的必要組成部分。為了實(shí)現(xiàn)這個目標(biāo),我們建議使用自正則化,它可以最大限度地減少合成圖像與精煉圖像之間的差異。

(算法1)

(圖3:局部對抗性損失的圖示。鑒別器網(wǎng)絡(luò)輸出wxh概率圖。對抗損失函數(shù)是局部塊上的交叉熵?fù)p失的總和。)

因此在我們的執(zhí)行中,整體精煉損失函數(shù)(1)為:

(4)在||.||1是L1常模時,我們將Rθ作為一個完全卷積的神經(jīng)網(wǎng)絡(luò),而無需躍進(jìn)或池化。在像素級別上修改合成圖像,而不是整體地修改圖像內(nèi)容。例如在完全連接地編碼器網(wǎng)絡(luò)中便會如此,保留全局結(jié)構(gòu)合注釋。我們通過交替地最小化LR(θ) 和LD(φ)來學(xué)習(xí)精化器和鑒別器參數(shù)。在更新Rθ的參數(shù)時,我們保持φ固定不變,而在更新Dφ時,則要保持θ不變。我們在算法1中描述了整個訓(xùn)練過程。

(圖4:使用精細(xì)圖像歷史示意圖。相關(guān)信息請參閱文本描述。)

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2016-12-28
蘋果發(fā)布首份人工智能報告(全文):瞄準(zhǔn)AI視覺
日前,蘋果發(fā)布了其首份關(guān)于人工智能(AI)的學(xué)術(shù)論文——“通過對抗網(wǎng)絡(luò)使用模擬和非監(jiān)督圖像訓(xùn)練”(Learning from Simulated and Uns

長按掃碼 閱讀全文