逝去16年后，AI讓張國(guó)榮又重生了(4)

小大

用微信掃描二維碼
分享至好友和朋友圈

掃描到手機(jī)×

2019-04-01 14:08:58 新浪參與評(píng)論()人

另外，目前以fakeApp為代表的應(yīng)用存在分辨率低、效果不穩(wěn)定、渲染時(shí)間長(zhǎng)的問(wèn)題。QuantumLiu介紹，用AI和特效技術(shù)解決連續(xù)針斷點(diǎn)再融入難題，one shot面部自適應(yīng)，機(jī)器自主學(xué)習(xí)光感和畫(huà)面匹配度，每一次的訓(xùn)練都會(huì)自動(dòng)疊帶，成功率，效果和渲染速度大幅提高，動(dòng)態(tài)視頻的切換更加完美的匹配。目前已經(jīng)取得了高分辨率光感匹配的突破和疊加式渲染的突破。已經(jīng)可以在幾個(gè)小時(shí)內(nèi)完成一整部片的替換，而且計(jì)算機(jī)學(xué)習(xí)的速度越來(lái)越快，時(shí)間周期還在不斷的縮短，品質(zhì)不斷提高。

Deepfakes技術(shù)詳解

QuantumLiu將在近期發(fā)布張國(guó)榮“復(fù)活”視頻的具體實(shí)現(xiàn)方法，在他發(fā)布之前，我們先來(lái)了解下Deepfakes的技術(shù)內(nèi)容。

Deepfakes使用生成對(duì)抗網(wǎng)絡(luò)(GAN)，其中兩個(gè)機(jī)器學(xué)習(xí)模型進(jìn)行了較量。一個(gè)ML模型在數(shù)據(jù)集上進(jìn)行訓(xùn)練，然后創(chuàng)建偽造的視頻，而另一個(gè)模型嘗試檢測(cè)偽造。偽造者創(chuàng)建假視頻，直到另一個(gè)ML模型無(wú)法檢測(cè)到偽造。訓(xùn)練數(shù)據(jù)集越大，偽造者越容易創(chuàng)建可信的deepfake視頻。

逝去16年后，AI讓張國(guó)榮又重生了

上圖顯示了一個(gè)圖像(在本例中是一張臉)被輸入到編碼器(encoder)中。其結(jié)果是同一張臉的低維表示，有時(shí)被稱(chēng)為latent face。根據(jù)網(wǎng)絡(luò)架構(gòu)的不同，latent face可能根本不像人臉。當(dāng)通過(guò)解碼器(decoder)時(shí)，latent face被重建。自動(dòng)編碼器是有損的，因此重建的臉不太可能有原來(lái)的細(xì)節(jié)水平。

程序員可以完全控制網(wǎng)絡(luò)的形狀：有多少層，每層有多少節(jié)點(diǎn)，以及它們?nèi)绾芜B接。網(wǎng)絡(luò)的真實(shí)知識(shí)存儲(chǔ)在連接節(jié)點(diǎn)的邊緣。每條邊都有一個(gè)權(quán)重，找到使自動(dòng)編碼器能夠像描述的那樣工作的正確權(quán)重集是一個(gè)耗時(shí)的過(guò)程。

訓(xùn)練神經(jīng)網(wǎng)絡(luò)意味著優(yōu)化其權(quán)重以達(dá)到特定的目標(biāo)。在傳統(tǒng)的自動(dòng)編碼器的情況下，網(wǎng)絡(luò)的性能取決于它如何根據(jù)其潛在空間的表示重建原始圖像。

訓(xùn)練Deepfakes

需要注意的是，如果我們單獨(dú)訓(xùn)練兩個(gè)自動(dòng)編碼器，它們將互不兼容。latent faces基于每個(gè)網(wǎng)絡(luò)在其訓(xùn)練過(guò)程中認(rèn)為有意義的特定特征。但是如果將兩個(gè)自動(dòng)編碼器分別在不同的人臉上訓(xùn)練，它們的潛在空間將代表不同的特征。

使人臉交換技術(shù)成為可能的是找到一種方法來(lái)強(qiáng)制將兩個(gè)潛在的人臉在相同的特征上編碼。Deepfakes通過(guò)讓兩個(gè)網(wǎng)絡(luò)共享相同的編碼器，然后使用兩個(gè)不同的解碼器來(lái)解決這個(gè)問(wèn)題。

逝去16年后，AI讓張國(guó)榮又重生了

在訓(xùn)練階段，這兩個(gè)網(wǎng)絡(luò)需要分開(kāi)處理。解碼器A僅用A的人臉來(lái)訓(xùn)練；解碼器B只用B的人臉來(lái)訓(xùn)練，但是所有的latent face都是由同一個(gè)編碼器產(chǎn)生的。這意味著編碼器本身必須識(shí)別兩個(gè)人臉中的共同特征。因?yàn)樗械娜四樁季哂邢嗨频慕Y(jié)構(gòu)，所以編碼器學(xué)習(xí)“人臉”本身的概念是合理的。

生成Deepfakes

當(dāng)訓(xùn)練過(guò)程完成后，我們可以將A生成的一個(gè)latent face傳遞給解碼器B。如下圖所示，解碼器B將嘗試從與A相關(guān)的信息中重構(gòu)B。

逝去16年后，AI讓張國(guó)榮又重生了

如果網(wǎng)絡(luò)已經(jīng)很好地概括了人臉的構(gòu)成，那么潛在空間將表示面部表情和方向。這意味著可以為B生成與A的表情和方向相同的人臉。請(qǐng)看下面的動(dòng)圖。左邊，UI藝術(shù)家Anisa Sanusi的臉被從一個(gè)視頻中提取并對(duì)齊。右邊，一個(gè)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)正在重建游戲設(shè)計(jì)師Henry Hoffman的臉，以匹配Anisa的表情。