Starppersonu Uzbrukumi: Kāpēc Neironu Tīklu Ir Viegli Pievilināt? - Alternatīvs Skats

Satura rādītājs:

Starppersonu Uzbrukumi: Kāpēc Neironu Tīklu Ir Viegli Pievilināt? - Alternatīvs Skats
Starppersonu Uzbrukumi: Kāpēc Neironu Tīklu Ir Viegli Pievilināt? - Alternatīvs Skats

Video: Starppersonu Uzbrukumi: Kāpēc Neironu Tīklu Ir Viegli Pievilināt? - Alternatīvs Skats

Video: Starppersonu Uzbrukumi: Kāpēc Neironu Tīklu Ir Viegli Pievilināt? - Alternatīvs Skats
Video: Konference "Kādēļ ir grūti uzticēties valdības viedoklim un lēmumiem krīzes situācijā?" ar titriem 2024, Aprīlis
Anonim

Pēdējos gados, padziļinoties dziļo mācību sistēmām, zinātnieki parādīja, kā sacīkstes raksti var ietekmēt jebko, sākot no vienkārša attēlu klasifikatora līdz vēža diagnostikas sistēmām, un pat radīt dzīvībai bīstamu situāciju. Neskatoties uz visām viņu briesmām, konkurences piemēri ir slikti izprotami. Un zinātnieki bija noraizējušies: vai šo problēmu var atrisināt?

Kas ir sacīkšu uzbrukums? Tas ir veids, kā pievilināt neironu tīklu, lai iegūtu nepareizu rezultātu. Tos galvenokārt izmanto zinātniskos pētījumos, lai pārbaudītu modeļu izturību pret nestandarta datiem. Bet reālajā dzīvē, piemēram, pandas attēlā varat mainīt dažus pikseļus, lai neironu tīkls būtu pārliecināts, ka attēlā ir lente. Lai gan zinātnieki attēlam pievieno tikai "troksni".

Pretinieka uzbrukums: kā pievilināt neironu tīklu?

Jauns Masačūsetsas Tehnoloģiju institūta darbs norāda uz iespējamo šīs problēmas pārvarēšanas veidu. Atrisinot to, mēs varētu izveidot daudz uzticamākus dziļas mācīšanās modeļus, ar kuriem ļaundabīgā veidā būtu daudz grūtāk manipulēt. Bet vispirms apskatīsim sacīkstes modeļa pamatus.

Kā jūs zināt, dziļas mācīšanās spēks nāk no tā augstākās spējas atpazīt modeļus (modeļus, modeļus, diagrammas, modeļus) datos. Padevējiet desmitiem tūkstošu dzīvnieku neironu tīkla fotoattēlu ar marķējumu un tas uzzina, kuri paraugi ir saistīti ar pandu un kuri ir saistīti ar pērtiķiem. Pēc tam viņa var izmantot šos modeļus, lai atpazītu jaunus dzīvnieku attēlus, kurus viņa vēl nekad nav redzējusi.

Bet dziļas mācīšanās modeļi ir arī ļoti trausli. Tā kā attēla atpazīšanas sistēma paļaujas tikai uz pikseļu rakstiem, nevis uz konceptuālāku izpratni par redzēto, to ir viegli pievilināt, lai redzētu kaut ko pavisam citu - vienkārši noteiktā veidā sadalot modeļus. Klasisks piemērs: pievienojiet pandas attēlam nelielu troksni, un sistēma to klasificē kā gibonu ar gandrīz 100 procentu pārliecību. Šis troksnis būs sacenšanās uzbrukums.

Image
Image

Reklāmas video:

Jau vairākus gadus zinātnieki novēro šo parādību, it īpaši datoru redzes sistēmās, īsti nezinot, kā atbrīvoties no šādām ievainojamībām. Faktiski darbs, kas tika iesniegts pagājušajā nedēļā lielajā mākslīgā intelekta pētījumu konferencē - ICLR, liek apšaubīt sacīkstes izraisītu uzbrukumu neizbēgamību. Varētu šķist, ka neatkarīgi no tā, cik daudz pandas attēlu jūs barojat ar attēlu klasifikatoru, vienmēr būs sava veida sašutums, ar kuru jūs sabojājat sistēmu.

Bet jaunais MIT darbs pierāda, ka mēs nepareizi domājām par pretinieku uzbrukumiem. Tā vietā, lai izdomātu veidus, kā savākt vairāk kvalitatīvu datu, kas baro sistēmu, mums ir būtiski jāpārdomā sava pieeja tās apmācībai.

Darbs to parāda, atklājot diezgan interesantu pretrunīgu piemēru īpašību, kas palīdz mums saprast, kāpēc tie ir efektīvi. Kāds triks: šķietami nejaušs troksnis vai uzlīmes, kas mulsina neironu tīklu, faktiski izmanto ļoti punktveida, smalkus modeļus, kurus vizualizācijas sistēma ir iemācījusies stingri saistīt ar konkrētiem objektiem. Citiem vārdiem sakot, mašīna neveic avāriju, kad mēs redzam gibonu, kur mēs redzam pandu. Patiesībā viņa redz regulāru, cilvēkiem neredzamu pikseļu izkārtojumu, kas daudz biežāk parādījās attēlos ar giboniem nekā attēlos ar pandas apmācības laikā.

Zinātnieki to pierādīja ar eksperimenta palīdzību: viņi izveidoja suņu attēlu datu kopu, kas visi tika mainīti tā, ka standarta attēlu klasifikators tos kļūdaini identificēja kā kaķus. Pēc tam viņi šos attēlus iezīmēja ar “kaķiem” un izmantoja, lai no jauna apmācītu jaunu neironu tīklu. Pēc apmācības viņi parādīja neironu tīkla reālos kaķu attēlus, un viņa pareizi tos visus identificēja kā kaķus.

Pētnieki izvirzīja hipotēzi, ka katrā datu kopā ir divu veidu korelācijas: modeļi, kas faktiski korelē ar datu nozīmi, piemēram, ūsas kaķu attēlos vai kažokādas krāsošana pandas attēlos un modeļi, kas pastāv apmācības datos, bet netiek izplatīti. uz citiem kontekstiem. Šīs pēdējās "maldinošās" korelācijas, sauksim tās, tiek izmantotas sacīkstes uzbrukumos. Atzīšanas sistēma, kas apmācīta atpazīt "maldinošus" modeļus, atrod tos un domā, ka redz pērtiķi.

Tas mums saka - ja mēs vēlamies novērst konkurējoša uzbrukuma risku, mums jāmaina veids, kā mēs apmācām savus modeļus. Pašlaik mēs neironu tīklam ļaujam izvēlēties korelācijas, kuras tas vēlas izmantot, lai identificētu objektus attēlā. Tā rezultātā mums nav iespējas kontrolēt konstatētās korelācijas, vai tās ir reālas vai maldinošas. Ja tā vietā mēs apmācītu savus modeļus atcerēties tikai reālus modeļus - kas ir saistīti ar jēgpilniem pikseļiem - teorētiski būtu iespējams radīt dziļas apmācības sistēmas, kuras nevarētu sajaukt.

Kad zinātnieki pārbaudīja šo ideju, modeļa apmācīšanai izmantojot tikai reālas korelācijas, viņi faktiski samazināja tās ievainojamību: ar to tika manipulēts tikai 50% laika, savukārt ar modeli, kas apmācīts uz reālām un nepatiesām korelācijām, tika manipulēts 95% laika.

Īsāk sakot, jūs varat aizstāvēt pret konkurentu uzbrukumiem. Bet mums ir nepieciešami vairāk pētījumu, lai tos pilnībā novērstu.

Iļja Khel