Neironu Tīkls Tika Iemācīts Gandrīz Nevainojami Kopēt Cilvēka Balsi - Alternatīvs Skats

Satura rādītājs:

Neironu Tīkls Tika Iemācīts Gandrīz Nevainojami Kopēt Cilvēka Balsi - Alternatīvs Skats
Neironu Tīkls Tika Iemācīts Gandrīz Nevainojami Kopēt Cilvēka Balsi - Alternatīvs Skats

Video: Neironu Tīkls Tika Iemācīts Gandrīz Nevainojami Kopēt Cilvēka Balsi - Alternatīvs Skats

Video: Neironu Tīkls Tika Iemācīts Gandrīz Nevainojami Kopēt Cilvēka Balsi - Alternatīvs Skats
Video: Существует ли Бог? 2024, Aprīlis
Anonim

Pagājušajā gadā mākslīgā intelekta uzņēmums DeepMind dalījās ar informāciju par savu jauno projektu WaveNet - dziļi mācošu neironu tīklu, ko izmanto reālistiskas cilvēku runas sintezēšanai. Nesen tika izlaista uzlabota šīs tehnoloģijas versija, kas tiks izmantota kā digitālā mobilā palīga Google palīga pamats.

Balss sintēzes sistēma (pazīstama arī kā teksta-runas funkcija, TTS) parasti tiek veidota, izmantojot vienu no divām pamatmetodēm. Konkadentatīvā (vai apkopošanas) metode ietver frāžu konstruēšanu, savācot atsevišķus ierakstītu vārdu fragmentus un daļas, kas iepriekš ierakstītas, iesaistot balss aktieri. Šīs metodes galvenais trūkums ir nepieciešamība pastāvīgi nomainīt skaņas bibliotēku ikreiz, kad tiek veikti kādi atjauninājumi vai izmaiņas.

Citu metodi sauc par parametrisko TTS, un tās iezīme ir parametru kopu izmantošana, ar kuru palīdzību dators ģenerē vēlamo frāzi. Metodes trūkums ir tāds, ka visbiežāk rezultāts izpaužas kā nereālistiska vai tā sauktā robotizēta skaņa.

Savukārt WaveNet rada skaņas viļņus no nulles, izmantojot konvolucionālu neironu tīkla sistēmu, kur skaņa tiek ģenerēta vairākos slāņos. Pirmkārt, lai apmācītu "dzīvas" runas sintezēšanas platformu, tai "padod" milzīgu daudzumu paraugu, vienlaikus atzīmējot, kuri skaņas signāli izklausās reāli un kuri nē. Tas balss sintezatoram dod iespēju reproducēt naturālistisku intonāciju un pat tādas detaļas kā smakojošās lūpas. Atkarībā no tā, kuri runas paraugi tiek vadīti caur sistēmu, tas ļauj tai izveidot unikālu “akcentu”, kuru ilgtermiņā var izmantot, lai radītu daudz dažādu balsu.

Asas uz mēles

Varbūt lielākais WaveNet sistēmas ierobežojums bija tas, ka tā darbināšanai bija nepieciešams milzīgs skaitļošanas jaudas daudzums, un pat tad, kad šis nosacījums tika izpildīts, tas neatšķīrās no ātruma. Piemēram, 0,02 sekunžu skaņas ģenerēšanai vajadzēja apmēram vienu sekundi laika.

Pēc gada darba DeepMind inženieri joprojām atrada veidu, kā uzlabot un optimizēt sistēmu, lai tā tagad spētu radīt neapstrādātu vienas sekundes skaņu tikai 50 milisekundēs, kas ir 1000 reizes ātrāk nekā tās sākotnējās iespējas. Turklāt speciālistiem izdevās palielināt audio paraugu ņemšanas ātrumu no 8-bit līdz 16-bitiem, kas pozitīvi ietekmēja testus, kuros piedalījās klausītāji. Šie panākumi ļāva WaveNet integrēties patēriņa produktos, piemēram, Google Assistant.

Reklāmas video:

Pašlaik WaveNet var izmantot, lai ģenerētu angļu un japāņu balsis, izmantojot Google palīgu un visas platformas, kur tiek izmantots šis digitālais asistents. Tā kā sistēma var izveidot īpaša veida balsis, atkarībā no tā, kāds paraugu komplekts tai tika piegādāts apmācībai, tuvākajā nākotnē Google, visticamāk, ieviesīs atbalstu reālistiskas runas sintezēšanai WaveNet citās valodās, ieskaitot to ņemšanu vērā vietējie dialekti.

Runas saskarnes kļūst arvien izplatītākas visdažādākajās platformās, taču to izteiktais nedabiskais skaņas raksturs izslēdz daudzus potenciālos lietotājus. DeepMind centieni uzlabot šo tehnoloģiju noteikti veicinās šādu balss sistēmu plašāku ieviešanu, kā arī uzlabos lietotāju pieredzi to lietošanā.

Angļu un japāņu sintezētās runas piemērus, izmantojot WaveNet neironu tīklu, var atrast, izmantojot šo saiti.

Nikolajs Khizhnyak