編譯/VR陀螺
近日,美國(guó)專利商標(biāo)局授予蘋果公司一項(xiàng)專利,該專利的標(biāo)題名為"帶有姿勢(shì)和表情控制的面部圖像生成"。這項(xiàng)專利說(shuō)明了蘋果認(rèn)為這可能是未來(lái)的照片操作功能和/或靜態(tài)照片和視頻應(yīng)用程序的發(fā)展方向。
蘋果在其新專利中指出,他們的發(fā)明涵蓋了與基于參考圖像創(chuàng)建人臉合成圖像有關(guān)的系統(tǒng)和方法。這些合成圖像可以納入面部表情和姿勢(shì)的變化。
在推斷時(shí),可以生成一個(gè)看起來(lái)像參考圖像的人(即主體)的圖像,并根據(jù)系統(tǒng)或方法展現(xiàn)出主體以前沒(méi)有出現(xiàn)過(guò)的表情和/或姿勢(shì)。因此,生成的圖像是一個(gè)模擬的圖像,看起來(lái)描述的是參考圖像的主體,但它實(shí)際上不是一個(gè)真實(shí)的圖像。
在該專利中,真實(shí)圖像指的是一個(gè)人的攝影圖像,它代表了該人在圖像被拍攝時(shí)的樣子。
正如專利中所解釋的,所述的系統(tǒng)和方法首先根據(jù)面部表情和姿勢(shì)的變化來(lái)修改主體臉部的形狀描述。這就產(chǎn)生了一個(gè)目標(biāo)形狀描述(例如,臉部形狀統(tǒng)計(jì)模型的參數(shù)),可用于呈現(xiàn)目標(biāo)臉部形狀的圖像。
目標(biāo)臉型包含了相對(duì)于參考圖像的表情和/或姿勢(shì)的變化。目標(biāo)臉型被渲染,以產(chǎn)生一個(gè)渲染的目標(biāo)臉型圖像。
目標(biāo)臉部充分描述了主要的面部特征(例如,眼睛和嘴),以傳達(dá)這些特征的位置、形狀和表情。
渲染的目標(biāo)臉形圖像和參考圖像被提供給圖像發(fā)生器作為輸入。目標(biāo)臉型的渲染版本作為一個(gè)地圖,表明面部特征的位置,而參考圖像作為一個(gè)紋理源,將參考圖像中的主體外觀應(yīng)用到目標(biāo)臉型的渲染版本中。
圖像生成器是一個(gè)經(jīng)過(guò)訓(xùn)練的機(jī)器學(xué)習(xí)模型(例如,神經(jīng)網(wǎng)絡(luò)),它被配置為生成一個(gè)看起來(lái)像人臉的現(xiàn)實(shí)圖像的圖像,包含一個(gè)臉部形狀(例如,包括面部表情和姿勢(shì)),與來(lái)自目標(biāo)臉部形狀的渲染版本的臉部形狀一致,并且與參考圖像的主體身份一致(例如,生成圖像中描繪的人看起來(lái)與參考圖像的主體是同一個(gè)人)。
圖像生成器經(jīng)過(guò)訓(xùn)練,以限制基于輸入圖像的輸出圖像的生成,從而使輸出圖像看起來(lái)描述了輸入圖像的主體。
圖像生成器可以是生成式對(duì)抗網(wǎng)絡(luò)的一部分,該網(wǎng)絡(luò)通過(guò)同時(shí)訓(xùn)練生成器生成圖像和判別器來(lái)確定圖像是否真實(shí),是否與目標(biāo)臉部形狀的渲染版本中的臉部形狀相對(duì)應(yīng),并與參考圖像中主體的身份相對(duì)應(yīng)。
圖源:patentlyapple
蘋果公司的專利圖1是一個(gè)框圖,顯示了一個(gè)圖像生成系統(tǒng),它包括一個(gè)形狀估計(jì)器和一個(gè)圖像生成器;圖2是一個(gè)框圖,顯示了形狀估計(jì)器的訓(xùn)練系統(tǒng)。
蘋果公司的專利圖4是一個(gè)框圖,顯示了圖像發(fā)生器的訓(xùn)練系統(tǒng);圖6是一個(gè)流程圖,顯示了具有姿勢(shì)和表情控制的人臉圖像生成過(guò)程。
圖源:patentlyapple
上述圖4的圖像生成器訓(xùn)練系統(tǒng)#440被配置為訓(xùn)練圖像生成器,以根據(jù)圖像生成器通過(guò)大量的訓(xùn)練程序迭代學(xué)習(xí)的約束條件輸出生成的圖像(#441)。圖像生成器訓(xùn)練系統(tǒng)被配置為生成對(duì)抗網(wǎng)絡(luò)(GAN--如Wiki定義的Deepfakes中所指)的形式,其中生成器生成合成圖像,鑒別器試圖確定圖像是真實(shí)的還是合成的,而確定的結(jié)果被用來(lái)進(jìn)一步訓(xùn)練生成器和鑒別器。
想了解更多細(xì)節(jié),請(qǐng)查閱蘋果公司的授權(quán)專利US 11475608 B2。
今天,蘋果使用iPhone的Face ID相機(jī)來(lái)創(chuàng)建Memoji,這很容易導(dǎo)致出現(xiàn)Deepfake圖像操縱。但這項(xiàng)專利并不是關(guān)于Memoji的,因?yàn)樘O果在2015年收購(gòu)了一家名為Faceshift的公司,該技術(shù)就來(lái)自于此公司。
蘋果新獲得的專利是對(duì)Deepfake 這項(xiàng)技術(shù)的一種新詮釋,它是在Memoji幾年后開(kāi)發(fā)的,并深入研究了對(duì)照片和視頻的操作。很明顯,蘋果可以更進(jìn)一步利用這項(xiàng)技術(shù)??纯刺O果將如何使Deepfake操縱成為一種友好的、不具威脅性的應(yīng)用,這將是很有趣的。
來(lái)源:patentlyapple
投稿/爆料:tougao@youxituoluo.com
稿件/商務(wù)合作: 六六(微信 13138755620)
加入行業(yè)交流群:六六(微信 13138755620)
元宇宙數(shù)字產(chǎn)業(yè)服務(wù)平臺(tái)
下載「陀螺科技」APP,獲取前沿深度元宇宙訊息