Kad Mākslīgais Intelekts Sāks Balsot Sērijas - Alternatīvs Skats

Satura rādītājs:

Kad Mākslīgais Intelekts Sāks Balsot Sērijas - Alternatīvs Skats
Kad Mākslīgais Intelekts Sāks Balsot Sērijas - Alternatīvs Skats

Video: Kad Mākslīgais Intelekts Sāks Balsot Sērijas - Alternatīvs Skats

Video: Kad Mākslīgais Intelekts Sāks Balsot Sērijas - Alternatīvs Skats
Video: 10. MĀKSLĪGAIS INTELEKTS jeb ZVĒRA TĒLS. 2024, Aprīlis
Anonim

Krievijas izdevēji jau eksperimentē ar audiogrāmatu ierakstīšanu mašīnā, nākotnē mākslīgajam intelektam var uzticēt seriālu tulkošanu un dublēšanu ar iecienītāko aktieru balsīm. Par šādu tehnoloģiju īpašībām un cik ilgs laiks būs nepieciešams to izveidošanai.

Mutiskā runa kļūst rakstiska

Vietnē YouTube automātiskus videoklipu subtitrus izveido ar balss atpazīšanas un runas-teksta tulkošanas programmatūru. Tā pamatā ir pašmācības neironu tīkli. Šī opcija ir vairāk nekā desmit gadus veca, taču rezultāts joprojām ir tālu no ideāla. Biežāk nekā nē, jūs varat noķert tikai teiktā vispārīgo nozīmi. Kādas ir grūtības?

Teiksim, skaidro Andrejs Filčenkovs, ITMO universitātes Mašīnmācīšanās laboratorijas vadītājs, ka mēs veidojam runas atpazīšanas algoritmu. Tas prasa neironu tīkla apmācību lielā datu masīvā.

Tas prasīs simtiem, tūkstošiem stundu runas ierakstus un to pareizu salīdzināšanu ar tekstiem, ieskaitot frāžu sākuma un beigu marķēšanu, sarunu biedru maiņu utt. To sauc par iežogojumu. Jo lielāks tas ir, jo labāk tiek apmācīts neironu tīkls. Angļu valodai ir izveidoti patiešām lieli korpori, tāpēc atpazīšana ir daudz labāka. Bet par krievu vai, teiksim, spāņu valodu ir daudz mazāk datu, un par daudzām citām valodām datu vispār nav.

“Un rezultāts ir piemērots,” secina zinātnieks.

“Turklāt mēs novērtējam vārda, frāzes nozīmi filmā ne tikai pēc skaņas, svarīga ir arī aktiera intonācija un viņa sejas izteiksmes. Kā jūs to interpretējat? - piebilst Sergejs Aksenovs, Tomskas Politehniskās universitātes Informācijas tehnoloģiju katedras asociētais profesors.

Reklāmas video:

“Kā rīkoties ar tekošas runas īpašībām? Izplūdušais artikulācija, skiču veidošana, starpsaucieni, pauzes? Galu galā atkarībā no tā nozīme mainās, kā tas ir teikumā "jūs nevarat apžēlot". Kā iemācīt mašīnu noteikt, kur runātājam ir komats? Un dzejā? " - uzskaita Marina Bolsunovskaya, NTI SPbPU centra laboratorijas "Rūpnieciskās straumēšanas datu apstrādes sistēmas" vadītāja.

Veiksmīgākie projekti, pēc eksperta domām, ir šaurās jomās. Piemēram, RTC uzņēmumu grupas izstrādātā sistēma ārstu profesionālās runas atpazīšanai, izmantojot medicīniskos terminus, palīdz ārstiem saglabāt slimības vēsturi.

“Šeit jūs varat skaidri ieskicēt tēmu un izcelt atslēgas vārdus runā. Ārsts īpaši uzsver noteiktas sadaļas ar intonāciju: pacientu sūdzības, diagnoze,”precizē Bolsunovskaja.

Uz vēl vienu problēmu norāda Mihails Burtsevs, MIPT neironu sistēmu un dziļo mācību laboratorijas vadītājs. Fakts ir tāds, ka līdz šim mašīna ir veiksmīgāka teksta atpazīšanā, kad runā viens cilvēks, nevis vairāki, piemēram, filmās.

Tulkošana ar kontekstu

Ņemsim, piemēram, video angļu valodā, izgriezumu no seriāla “Game of Thrones”, un ieslēgsim automātiskos subtitrus krievu valodā. Tas, ko mēs redzam, visticamāk, liks mums smieties.

Joprojām no * Troņu spēles *
Joprojām no * Troņu spēles *

Joprojām no * Troņu spēles *.

Tomēr mašīntulkošanā tehnoloģija ir guvusi iespaidīgus panākumus. Tātad, Google tulkotājs diezgan toleranti tulko tekstus parastās valodās, bieži vien ir nepieciešama tikai minimāla rediģēšana.

Fakts ir tāds, ka neironu tīkla tulkotājs tiek apmācīts arī ar lielu sākotnējo, pareizi marķēto datu klāstu - paralēlu korpusu, kas parāda, kā katrai frāzei oriģinālvalodā vajadzētu izskatīties krievu valodā.

“Šādu ēku celtniecība ir ļoti darbietilpīga, dārga un laikietilpīga, tas prasa mēnešus un gadus. Lai apmācītu neironu tīklu, mums ir nepieciešami Aleksandrijas bibliotēkas izmēra teksti. Modeļi ir universāli, taču daudz kas ir atkarīgs no valodas. Ja jūs sniedzat daudz datu, piemēram, Avar, un tulkojums būs kvalitatīvs, bet Avar vienkārši nav tik daudz datu,”saka Andrejs Filčenkovs.

“Tulkošana ir atsevišķs produkts, kas ir saistīts ar oriģinālu, bet nav tam līdzvērtīgs,” saka Tālo Austrumu federālās universitātes Digitālās ekonomikas skolas direktors Iļja Mirins. - Tipisks piemērs ir Dmitrija Puškova (Goblin) ārzemju filmu tulkojumi 90. gados. Tikai pēc viņa darba kļuva skaidrs, kas tur notiek. No VHS versijām nevarējām uzzināt neko atbilstošu. Kā alternatīvu mēģiniet tulkot labi zināmā valodā kaut ko no The Master un Margarita. Piemēram, “melnā apmetnī ar asiņainu oderi”. Mašīna to nevar izdarīt."

Neironu tīkli labi mācās no daudziem tipiskiem piemēriem, taču filmas ir pilnas ar sarežģītām nozīmēm un konotācijām, jokiem, kas mašīnai nav pieejami - tas tos nevar atšķirt.

“Katrā animācijas seriāla Futurama epizodē ir atsauce uz klasisko amerikāņu kino - Kasablanka, Romiešu svētki un tā tālāk. Šādos brīžos, lai uztvertu un pārfasētu nozīmi tiem, kuri šīs filmas nav skatījušies, tulkotājam ir jānāk klajā ar tuvu analogu no Krievijas konteksta. Nepareiza mašīntulkošana var ļoti atturēt skatītāju,”turpina Mirins.

Pēc viņa domām, mašīntulkošanas kvalitāte ir tuvu 80 procentiem, pārējā ir specifika, kas jāpievieno manuāli, iesaistot ekspertus. "Un ja 20-30 procentiem frāžu nepieciešama manuāla korekcija, tad kāda ir mašīntulkošana?" - saka pētnieks.

“Tulkošana ir visproblemātiskākais posms,” piekrīt Sergejs Aksenovs. - Viss ir atkarīgs no semantikas un konteksta. Pieejamos rīkus var izmantot tulkošanai un balss vadīšanai, piemēram, bērnu multfilmas ar vienkāršu vārdu krājumu. Bet līdz ar frazeoloģisko vienību, vārdu, vārdu, kas skatītājiem atsaucas uz kādu kultūras realitāti, interpretāciju, rodas grūtības."

Filmās un video konteksts vienmēr ir vizuāls, un to bieži pavada mūzika un troksnis. No attēla mēs spekulējam, par ko varonis runā. Runā, kas pārvērsta tekstā, nav šīs informācijas, tāpēc to ir grūti tulkot. Šādā situācijā tulkotāji strādā ar tekstu subtitriem, neredzot filmu. Viņi bieži kļūdās. Mašīntulkošana ir tas pats stāsts.

AI izsaka runu

Lai dublētu krievu valodā tulkotu sēriju, nepieciešams algoritms dabiskas runas ģenerēšanai no teksta - sintezators. Tos izveido daudzi IT uzņēmumi, ieskaitot Microsoft, Amazon, Yandex, un viņiem klājas diezgan labi.

Pēc Andreja Filčenkova vārdiem, pirms pāris gadiem runas sintezētāja dublēšanas minūte aizņēma vairākas stundas, tagad apstrādes ātrums ir ievērojami palielinājies. Runas sintēzes uzdevums dažās jomās, kur nepieciešami neitrāli dialogi, ir atrisināts diezgan labi.

Daudzi jau uzskata par pašsaprotamu sarunu ar robotu pa tālruni, komandu izpildi no automašīnas navigatora, dialogu ar Alisi Yandex. Drive automašīnā. Bet seriālu dublēšanai šīs tehnoloģijas vēl nav piemērotas.

“Problēma ir emocijas un izturēšanās. Mēs esam iemācījušies padarīt mašīnu balsi par cilvēku, taču tāls ceļš joprojām ir atkarīgs no tā, vai tas joprojām izklausās atbilstoši kontekstam un iedvesmo uzticību. Slikta balss darbība var viegli iznīcināt filmas uztveri,”sacīja Filčenkovs.

Pēc Mihaila Burtseva teiktā, runas sintēze ir diezgan reāla. Tomēr tas ir skaitļošanas ziņā intensīvs, un to nevar izdarīt reālā laikā par saprātīgu cenu.

“Ir algoritmi, kas sintezē runu, kas ir līdzīga konkrētā aktiera runai. Tas ir tembrs, runas veids un vēl daudz vairāk. Tātad jebkurš ārzemju aktieris faktiski runās krieviski,”prognozē Burtsevs. Viņš sagaida ievērojamu progresu nākamajos gados.

Sergejs Aksenovs dod piecus līdz desmit gadus, lai izstrādātu rīkus sarežģītu darbu tulkošanai un dublēšanai no visizplatītākajām valodām, piemēram, angļu. Zinātnieks min Skype piemēru, kas pirms vairākiem gadiem parādīja iespēju organizēt tiešsaistes nodarbības skolēniem, kas runā dažādās valodās. Bet pat tad sistēma nebūs ideāla, tai būs pastāvīgi jāmācās: jāiegūst vārdu krājums, jāņem vērā kultūras konteksts.