Mākslīgais Intelekts Ir Iemācījies Pareizi Atpazīt Runu Starp Troksni - Alternatīvs Skats

Mākslīgais Intelekts Ir Iemācījies Pareizi Atpazīt Runu Starp Troksni - Alternatīvs Skats
Mākslīgais Intelekts Ir Iemācījies Pareizi Atpazīt Runu Starp Troksni - Alternatīvs Skats

Video: Mākslīgais Intelekts Ir Iemācījies Pareizi Atpazīt Runu Starp Troksni - Alternatīvs Skats

Video: Mākslīgais Intelekts Ir Iemācījies Pareizi Atpazīt Runu Starp Troksni - Alternatīvs Skats
Video: Es uzbūvēju personīgo runas atpazīšanas sistēmu savam AI asistentam 2024, Maijs
Anonim

Virtuālie palīgi un balss atpazīšanas sistēmas ir iemācījušās “atpazīt” to, ko cilvēks viņiem saka, un ievērot viņa komandas. Bet tā paša Siri un Cortana pareizai darbībai liela problēma var būt svešs troksnis. Lai novērstu šo tehnisko trūkumu, var palīdzēt uzņēmuma Mitsubishi Electric eksperti, kuri prezentēja jaunu tehnoloģiju vienas personas runas atdalīšanai no vispārējā trokšņa.

Japānas uzņēmuma tehnoloģija tiek saukta par Deep Clustering, kuras darbība ir balstīta uz mašīnmācīšanās principiem. Sākumā mākslīgais intelekts iemācījās patstāvīgi atdalīt viena cilvēka runu no vispārējās dažādu skaņu un trokšņu plūsmas. Neironu tīkls atdala ienākošos audio datus dažādos elementos un analizē katru atsevišķi, pēc tam tas jau var apstrādāt cilvēka balsi. Līdzīgs darbs tiek novērots, ja divi vai vairāki sarunu biedri ir “savienoti”.

Japānas uzņēmuma tehnoloģijas demonstrācijas laikā sistēma spēja veiksmīgi nodalīt divu cilvēku runu, kas vienā mikrofonā runā vienā un tajā pašā teikumā dažādās valodās. Visa apstrāde tika veikta reālā laikā, un kavēšanās nepārsniedza trīs sekundes. Atpazīšanas precizitāte bija 90 procenti, un, kad trīs cilvēki sāka runāt mikrofonā, "trāpījumu" procentuālais daudzums samazinājās līdz 80, kas arī ir labs rezultāts. Pēc projekta autoru Entonija Vetro un Yohei Okato teiktā, “Pretstatā runas atdalīšanai no fona trokšņiem, vienas personas runas atdalīšana no tajā pašā laikā runājošo cilvēku“balss”trokšņiem ir ļoti grūts uzdevums, jo dažādu cilvēku balsu skaņām ir daudz īpatnību. Lielākajā daļā sistēmu balss atdalīšanas problēma tiek atrisināta, uzstādot divus vai vairākus mikrofonus, bet, ja tiek izmantots tikai viens mikrofons, tikai mākslīgais intelekts var tikt galā ar balss atdalīšanas uzdevumu. Šo tehnoloģiju var izmantot visur, kur nepieciešama augsta balss ziņojumu atpazīšanas precizitāte. Piemēram, balss vadības sistēmās automašīnām, liftiem, sadzīves un citām elektroniskām ierīcēm."

VLADIMIRS KUZNETSOVS