Zinātnieki Ir Izveidojuši Pašmācības AI, Kas Spēj Spēlēt Visas Spēles - Alternatīvs Skats

Video: Zinātnieki Ir Izveidojuši Pašmācības AI, Kas Spēj Spēlēt Visas Spēles - Alternatīvs Skats

Video: Privacy, Security, Society - Computer Science for Business Leaders 2016 2024, Aprīlis

2024 Autors: Keith Bush | [email protected]. Pēdējoreiz modificēts: 2023-12-16 14:32

Revolucionāras pašmācības mākslīgā intelekta sistēmas AlphaGo Zero izstrādātāji ir paziņojuši par šīs mašīnas jaunas versijas izveidi, kas var patstāvīgi iemācīties spēlēt jebkuru galda spēli un pārspēt cilvēku. Tās apraksts tika prezentēts žurnālā Science.

Prāta dziļums

AlphaGo AI sistēmu 2014. gada nogalē izstrādāja Deivids Sudrabs un kolēģi, un tās darbs tika "pārbaudīts" uz Eiropas čempionu Fanu Hui, kurš mašīnai zaudēja visus piecus mačus. AlphaGo 2016. gada martā piecu maču sērijā pieveica Go pasaules čempionu Lī Sedolu, no kuriem tikai viens noslēdzās ar cilvēka uzvaru.

Sudrabs un viņa kolēģi spēja sasniegt šos panākumus, veidojot savu AI, balstoties nevis uz vienu, bet gan uz diviem neironu tīkliem uzreiz - īpašiem algoritmiem, kas imitē cilvēka smadzeņu neironu ķēžu darbu. Viens no tiem ir atbildīgs par pašreizējās pozīcijas novērtēšanu valdē, bet otrs izmanto pirmā tīkla sagatavotos analīzes rezultātus, lai izvēlētos nākamo soli.

Nākamais loģiskais solis AlphaGo attīstībā bija visu esošo neironu tīklu un mākslīgā intelekta sistēmu galvenā trūkuma novēršana - vajadzība iemācīt viņiem to, kas viņiem jādara, izmantojot milzīgus datu arhīvus, kurus cilvēks apstrādā manuāli, vai arī ar personas tiešu līdzdalību, kā tas notika pirmajos posmos. AlphaGo attīstība.

Sudrabs un viņa komanda šo problēmu atrisināja, izveidojot principiāli jaunu neironu tīklu, kura pamatā bija tā sauktie pastiprināšanas mācību algoritmi. Šis neironu tīkls, atšķirībā no tā zvaigžņu priekšgājēja, kurš sākotnēji tika apmācīts spēlēm ar brīvprātīgajiem un kuram bija dažas iebūvētas primitīvas spēles stratēģijas, darbu sāka kā absolūts iesācējs ar nulles zināšanu bāzi.

Citiem vārdiem sakot, viņa tikai zināja Go spēles noteikumus, sākotnējos nosacījumus un uzvaras nosacījumus, un pēc tam dators patstāvīgi iemācījās spēlēt šo seno ķīniešu stratēģiju, spēlējot ar sevi un rīkojoties izmēģinājumu un kļūdu veidā. Vienīgais ierobežojums viņas darbā bija maksimālais laiks, lai pārdomātu gājienu - tas bija apmēram 0,4 sekundes.

Reklāmas video:

Pēc katras šādas spēles AI sistēma analizēja visus savus gājienus un atcerējās tos, kas tuvināja vienu no tās "pusītēm" uzvarai, un ievadīja sava veida "melnajā sarakstā" tos soļus, kas atklāti sakot zaudēja. Izmantojot šos datus, neironu tīkls sevi pārbūvēja, pakāpeniski sasniedzot līmeni, kuru sasniedza pirmā AlphaGo versija pirms spēļu sērijas ar Lī Sedolu.

Pāreja uz pašmācības algoritmiem ne tikai ļāva AlphaGo Zero pārspēt savu priekšgājēju un pārspēt to par 100-0, bet arī uzlaboja daudzus citus sava darba aspektus. Konkrēti, tā apmācības process ilga tikai trīs dienas un apmēram piecus miljonus spēļu, kas bija par mazāku pakāpi nekā AI pirmās versijas pieprasījumi.

Ceļš uz izcilību

Veiksmīga eksperimentu pabeigšana ar AlphaGo Zero lika Sudrabam un viņa komandai apsvērt, vai līdzīgu neironu tīklu varētu izmantot, lai izcīnītu čempionu kroni cita veida stratēģijās un galda spēlēs.

Lai to izdarītu, zinātnieki AlphaGo Zero iebūvēja vēl vienu jaunu elementu - heiristiskos algoritmus nejaušai risinājumu meklēšanai, kā arī kodu, kas dažās spēlēs ņēma vērā izlozes esamību. Turklāt jaunā alfa versija pastāvīgi uzlaboja tās struktūru, nevis tika atjaunināta tādos posmos kā tā priekšgājēja.

Šīs samērā vienkāršās izmaiņas, kā parādīja turpmāki eksperimenti, ievērojami palielināja šīs mākslīgā intelekta sistēmas pašmācības ātrumu un pārvērta to par universālu mašīnu, kas spēj atskaņot visu veidu dēļu stratēģijas.

Zinātnieki ir pārbaudījuši tā darbu trīs veidu spēlēs - go, parastais šahs un viņu japāņu dažādība, shogi. Visos trīs gadījumos Sudrabas jaunā intelektuālā māksla mazmeistara līmenī sasniedza lielmeistara līmeni, panākot gandrīz cilvēka selektivitāti, izvēloties iespējamos gājienus tikai 9–12 stundu šaha treniņos un 13 dienu laikā.

Iepriekš viņa pārspēja vissarežģītākās datorprogrammas, kas spēlē šīs spēles - Stockfish algoritms atteicās no AlphaZero apmācības ceturtās stundas, bet pašreizējais shogi čempions Elmo ilga tikai divas stundas. Visbeidzot, pirmā AlphaGo versija sāka dot savu "mazdēlu" apmēram 30 stundas pēc viņa apmācības.

Nākamie AlphaZero "upuri", kā atzīmēja zinātnieki, var būt "īstas" datorspēles, piemēram, Starcraft II un Dota 2. Čempionāta rīkošana šādās esporta disciplīnās, viņuprāt, pavērs ceļu pašmācības AI iespiešanai mazāk formalizētās zinātnes un kultūras jomās. un tehnoloģija.