Neironu Tīklam Tika Iemācīts "animēt" Portretus, Pamatojoties Tikai Uz Vienu Statisku Attēlu - Alternatīvs Skats

Neironu Tīklam Tika Iemācīts "animēt" Portretus, Pamatojoties Tikai Uz Vienu Statisku Attēlu - Alternatīvs Skats
Neironu Tīklam Tika Iemācīts "animēt" Portretus, Pamatojoties Tikai Uz Vienu Statisku Attēlu - Alternatīvs Skats

Video: Neironu Tīklam Tika Iemācīts "animēt" Portretus, Pamatojoties Tikai Uz Vienu Statisku Attēlu - Alternatīvs Skats

Video: Neironu Tīklam Tika Iemācīts
Video: 101 отличный ответ на самые сложные вопросы интервью 2024, Maijs
Anonim

Krievijas speciālisti no Samsung AI centra-Maskavas mākslīgā intelekta centra sadarbībā ar Skolkovo Zinātnes un tehnoloģijas institūta inženieriem ir izstrādājuši sistēmu, kas, balstoties tikai uz dažiem statiskiem cilvēka kadriem, spēj radīt reālistiskus animētus cilvēku sejas attēlus. Parasti šajā gadījumā ir nepieciešama lielu attēlu datu bāzu izmantošana, tomēr izstrādātāju iesniegtajā piemērā sistēma tika apmācīta, lai izveidotu animētu cilvēka sejas attēlu tikai no astoņiem statiskiem kadriem, un dažos gadījumos ar vienu pietika. Lai iegūtu sīkāku informāciju par attīstību, skatiet rakstu, kas publicēts ArXiv.org tiešsaistes krātuvē.

Image
Image

Parasti cilvēka sejas fotoreālistisko personalizēto moduli reproducēt ir diezgan grūti, jo cilvēka galvas reproducēšanas sarežģītība ir ļoti fotometriska, ģeometriska un kinemātiska. Tas izskaidrojams ne tikai ar visas sejas modelēšanas sarežģītību (šim nolūkam ir ļoti daudz pieeju modelēšanai), bet arī ar noteiktu pazīmju modelēšanas sarežģītību: mutes dobumu, matus utt. Otrs sarežģījošais faktors ir mūsu tendence pamanīt pat nelielas nepilnības gatavā cilvēka galvas modelī. Šī zemā pielaide modelēšanas kļūdām izskaidro telekonferencēs izmantoto nefotorealistisko iemiesojumu pašreizējo izplatību.

Pēc autoru domām, sistēma, kas saukta par Fewshot mācīšanos, spēj radīt ļoti reālistiskus runājošu cilvēku galvu modeļus un pat portretu gleznas. Algoritmi sintezē vienas un tās pašas personas galvas attēlu ar sejas atsauces līnijām, kas ņemtas no cita video fragmenta, vai izmantojot citas personas sejas atskaites punktus. Kā materiāla avotu sistēmas apmācībai izstrādātāji izmantoja plašu slavenību video attēlu datu bāzi. Lai iegūtu pēc iespējas precīzāku runājošo galvu, sistēmai jāizmanto vairāk nekā 32 attēli.

Lai radītu reālākus animētus sejas attēlus, izstrādātāji izmantoja iepriekšējās attīstības tendences ģeneratīvā pretstatu modelēšanā (GAN, kur neironu tīkls pārdomā attēla detaļas, faktiski kļūstot par mākslinieku), kā arī mašīnu metaizglītības pieeju, kur katrs sistēmas elements tiek apmācīts un paredzēts dažu problēmu risināšanai. konkrēts uzdevums.

Meta mācīšanās shēma
Meta mācīšanās shēma

Meta mācīšanās shēma.

Image
Image
Image
Image

Reklāmas video:

Trīs neironu tīkli tika izmantoti, lai apstrādātu cilvēku galvas statiskos attēlus un pārvērstu tos animētos: Embedder (ieviešanas tīkls), Generator (paaudzes tīkls) un Discriminator (diskriminējošais tīkls). Pirmajā tiek sadalīti galvas attēli (ar aptuveniem sejas orientieriem) iegulšanas vektoros, kas satur informāciju, kas nav atkarīga no pozas, otrajā tīklā tiek izmantoti sejas orientieri, ko iegūst iegulšanas tīkls, un, pamatojoties uz tiem, tiek ģenerēti jauni dati, izmantojot konvolucionāro slāņu kopumu, kas nodrošina izturību pret mēroga izmaiņām, pārvietojumiem, pagriezieni, leņķa maiņa un citi sākotnējā sejas attēla kropļojumi. Tīkla diskriminatoru izmanto, lai novērtētu pārējo divu tīklu kvalitāti un autentiskumu. Rezultātā sistēma personas sejas orientierus pārveido reālistiska izskata personalizētos fotoattēlos.

Image
Image
Image
Image

Izstrādātāji uzsver, ka viņu sistēma spēj inicializēt gan ģeneratoru tīkla, gan diskriminējošā tīkla parametrus katrai attēlā redzamajai personai, tāpēc mācību procesu var balstīt tikai uz dažiem attēliem, kas palielina tā ātrumu, neskatoties uz nepieciešamību izvēlēties desmitiem miljonu parametru.

Nikolajs Khizhnyak

Ieteicams: