Kā Tiek Atklāti Voynichas Rokraksta Noslēpumi: Izmeklēšana - Alternatīvs Skats

Satura rādītājs:

Kā Tiek Atklāti Voynichas Rokraksta Noslēpumi: Izmeklēšana - Alternatīvs Skats
Kā Tiek Atklāti Voynichas Rokraksta Noslēpumi: Izmeklēšana - Alternatīvs Skats

Video: Kā Tiek Atklāti Voynichas Rokraksta Noslēpumi: Izmeklēšana - Alternatīvs Skats

Video: Kā Tiek Atklāti Voynichas Rokraksta Noslēpumi: Izmeklēšana - Alternatīvs Skats
Video: 33. Voynich Manuscript MS408 *Die eindeutigsten Bildvergleiche* 2024, Maijs
Anonim

Kas slēpjas aiz sensacionālajām ziņām par Voynich rokrakstu un par krievu zinātniekiem, vai no teksta ir iespējams precīzi noteikt valodu, cik adekvāti matemātiķi strādā pie valodniecības "lauka".

19. aprīlī Krievijas mediji izplatīja ziņas par krievu matemātiķu "laikmeta radošo" atklājumu: zinātnieki, izmantojot jauno metodi, ne tikai pierādīja slavenā "Voynich manuscript" jēgpilnību, bet arī varēja noteikt, ka tas ir rakstīts divās valodās un izņemot burtus patskaņiem.

Voynichas rokraksts ir viduslaiku ilustrēts rokraksts, ko 1912. gadā iegādājās antīko preču tirgotājs Vilfrēds Voinihs. Izveidots 15. gadsimtā (pamatojoties uz pergamenta radiogļūdeņražu analīzi - bet lielākā daļa zinātnieku šobrīd tekstu neuzskata par vēlāku viltojumu), tas ir rakstīts nezināmā valodā, izmantojot nezināmu alfabētu. Spriežot pēc ilustrācijām, tekstu veido tematiski bloki: botāniskie, astronomiskie, farmakoloģiskie un citi. Teksta dekodēšanas sarežģītība padarīja Voynichas rokrakstu par “svēto graudu” kriptogrāfiem un daudzu pētījumu objektam, tostarp tiem, kas izmanto Big Data metodes.

Ziņojums par rokrakstu tika ziņots kā kaut kas sensacionāls. Tas uzreiz izraisīja zināmas bažas. “Pirms tam visi mēģinājumi atšifrēt unikālu dokumentu un pat tikai saprast, vai tas ir jēgpilns teksts, neizdevās. 600 gadu bezjēdzīgi centieni!.. CIP un NSA kriptogrāfi, superdatori un pat "okulto zinātņu" ārsti parakstīja savu pilnīgo impotenci. Jaunākais kriptologa Gordona Ruga raksts no Kēlas universitātes Lielbritānijā skan šādi: “Voynich rokraksts ir viltojums. Šādu “sarežģītu tekstu” ir viegli izveidot ikvienam, kurš pārzina vienkāršas kopēšanas metodes,”teikts rakstā.

Pirmkārt, teksta jēgpilnība tika atzīta jau pagājušā gadsimta 70. gados un vairākas reizes tika apstiprināta 2010. gadu pētījumos, par kuriem pietiekami detalizēti tika rakstīts pat vietējos medijos. Otrkārt, jaunumiem iesniegtais atklājums tika pasniegts tikai institūta priekšdrukas formā, nevis rakstā starptautiskā recenzējamā žurnālā (priekšdruka tika publicēta arī 2016. gadā).

Šīs dīvainības materiāla prezentācijā piespieda mūs meklēt skaidrojumus vispirms pie pētījuma autora un pēc tam pie neatkarīgiem ekspertiem - valodniekiem, kuri strādā ar statistikas un matemātikas metodēm, kā arī ar seno skriptu atšifrēšanu.

Formulu ir viegli uzrakstīt, un skaitliskās analīzes veikšana ir ļoti dārga

Reklāmas video:

Pirmkārt, īsi par pētījuma būtību. Preprinta autori, Maskavas Fizikas un tehnoloģijas institūta un Krievijas Zinātņu akadēmijas Lietišķās matemātikas institūta matemātiķi paļaujas uz saviem darbiem, saskaņā ar kuriem "teksta simbolu frekvences sadalījums ir stabils raksturojums nevis autoram vai teksta priekšmetam, bet valodai". Tas ir, izmantojot komplektu ar matemātisko rīku palīdzību, ir iespējams noteikt, kādā valodā tas ir rakstīts, pateicoties tam, ka katrai valodai ir savs raksturīgais "profils" (Hursta eksponenta sadalījums). Turklāt, ņemot par pamatu šīs metodes, zinātnieki konstatēja, ka rokraksta teksts ir rakstīts vairāku valodu sajaukumā. Tajā pašā laikā tam tika pievienotas nepatiesas atstarpes un noņemti simboli, kas apzīmē patskaņu skaņas.

Pētījuma vadošais autors Jurijs Orlovs (IPM RAS un MIPT) uzsvēra, ka Voynichas rokraksts nebūt nav viņu darba galvenais mērķis. " Sensacionālais "rokraksts ir tikai ilustrācija matemātiskajai metodei valodu atpazīšanai no teksta - faktiski problēma ir mašīnmācībai," sacīja Orlovs.

Pats rokraksts mums absolūti nav interesants. Zinātne īpaši attiecas uz valodu statistiku. Caur to mēs varam saprast, kādā valodā šis rokraksts ir uzrakstīts. Bet ne tas, kas tur rakstīts, tas ir svarīgs punkts. - Jurijs Orlovs. MIPT un Lietišķās matemātikas institūts, kas nosaukts M. V. Keldišs

Attiecībā uz darbā izmantoto lingvistisko metodi Orlovs atzīmē, ka pati burtu kombināciju biežuma analīze tekstos ir labi pazīstama lieta. Tomēr Hursta rādītājs valodniekiem ir maz zināms, jo to ir grūti aprēķināt pat matemātiskā izteiksmē. Pati formula ir viegli uzrakstāma, bet skaitliskā analīze ir ļoti dārga. Par to superdators, kas atrodas institūtā, kurš nosaukts M. V. Keldišs, uzsver matemātiķis.

Indoeiropiešu valodu izvēle analīzei ir izskaidrojama ar to, ka tās visas ir ļoti līdzīgas, saka Orlovs. Matemātiķu izstrādātie rādītāji ļauj viegli atšķirt valodas vienā valodu grupā, bet ne starp ģimenēm. Protams, teorētiski ir iespējams veikt to pašu darbu ar citām grupām (Urālu, Altaja vai citām), taču analīzes vērtība ir tās pilnīgumā, Orlovs ir pārliecināts. Indoeiropiešu valodu gadījumā nav grūti ierakstīt tekstu kopu katrai valodai, grūtāk to izdarīt ar citām ģimenēm.

Atgriežoties pie Voynichas rokraksta, Orlovs atzīmēja, ka viņš un viņa kolēģi minēja piecus pierādījumus (burtu frekvences secības logaritmiskais profils tekstā vienā un vairākās valodās, Hursta eksponenta sadalījums, nosacīto varbūtību matricas spektrālais portrets un citi) hipotēzi par valodu sajaukumu rokrakstā un svītrojumu. burti patskaņiem. Viņi uzsvērti norobežojas no "Hangout ap rokrakstu", taču viņi uzrādīja unikālu rezultātu - atklātu metodi, statistisko analīzi ar ticamības novērtējumu, kuru var neatkarīgi pārbaudīt.

Secinājumu novājina fakts, ka mēs nesaprotam, kādu materiālu un uz ko viņi ieguva - viņi pārbaudīja savu formulu

Pats pieņēmums, ka Voiniča rokraksta tekstā nav burtu patskaņiem, ar nepareizi izvietotām atstarpēm, ir skaists un labs, atzīmē valodniece Jevgeņija Korovina, kura nodarbojas ar valodas matemātisko statistiku (Krievijas Zinātņu akadēmijas Valodniecības institūts). Iepriekš neviens šādu hipotēzi neizvirzīja. Viņa, piemēram, skaisti izskaidro, kāpēc burtu ir mazāk, nekā varētu sagaidīt no Eiropas teksta. Bet problēma ir tā, ka pētījuma autori pat nenorādīja, kurus tekstus dažādās valodās viņi salīdzina un kāds ir šo testu apjoms. Priekšdrukā ir minēts ļoti daudz valodu. Tāpēc pētījums nav reproducējams: ja jūs uzņemat patvaļīgus tekstus tajās pašās valodās, tas nav fakts, ka iznāks tie paši modeļi.

Seno valodu izpētes korpusa metožu speciāliste Marija Molina (Valodniecības institūts, RAS) piekrīt Korovinai. Jaunas valodas datu apstrādes metodes, pēc viņas domām, palīdz iegūt informāciju par to, kas valodas pētniekiem iepriekš bija slēgts. Tomēr nepietiekami labi sagatavots ievades materiāls bieži diskreditē pat vissmalkākās datu apstrādes metodes.

Secinājumu novājina fakts, ka mēs nesaprotam, no kāda materiāla viņi to ieguva un uz kāda pamata viņi pārbaudīja savu formulu. Attiecībā uz savu materiālu es noteikti zinu, ka ir neliela metodiska kļūda - un es saņemu kritiski atšķirīgus skaitļus. - Marija Molina. RAS Valodniecības institūts

"Atkritumi iekšā - atkritumi ārā," piebilst Molina (GIGO ir datorzinātņu princips, kas nozīmē, ka nepareizi ievades dati radīs nepareizus rezultātus, pat ja pats algoritms ir pareizs, - ņemiet vērā Indicator. Ru).

Statistiskās metodes joprojām ir rezultātu mājieni, nevis rezultāti

Vēl asāk runāja Alberts Davletšins (Krievijas Valsts humanitāro zinātņu universitātes Salīdzinošo pētījumu institūta Valodu salīdzinošo pētījumu centra darbinieks, mācās maiju un polinēziešu valodas). Ja priekšdrukas autori negrasījās atšifrēt Voynich rokrakstu, kāpēc viņi to dara? Un, ja mēs runājam tieši par nezināma raksta atšifrēšanu, rodas jautājums pēc jautājuma: “Par rakstīšanu nav sākotnējo datu - kāda veida vēstule? Kā tiek iegūti dažādi transkripcijas? Cik rakstzīmes? Kas ir pamatā esošajiem pieņēmumiem par rakstīšanas raksturu? Kāds ir vārda garums, kas atdalīts ar atstarpēm un bez atstarpēm? Ko nozīmē atstarpes? Cik liela ir vārdnīca? Kāda ir parakstu un zīmējumu attiecība?

Sākumā izrādās, ka teksts ir dāņu un tikai dāņu valodā (un tas ir vēsturiski neiespējami, par kuru darbā nav neviena vārda). Tad izrādās, ka teksts ir divās nezināmās valodās (pārbaude šajā posmā izrādās neiespējama un tiek balstīta ticībā). Turklāt ir daudz konservatīvu veidu, kā pierādīt, ka divas (lielas) lapas ir rakstītas ar vienu burtu, bet dažādās valodās, neizmantojot sarežģītus matemātiskos modeļus. Visbeidzot, ja no teksta tiek noņemti patskaņi, cik daudz to apstiprina standarta, sen zināmas metodes (piemēram, Sukhotin, Shevoroshkina un Ventris)?"

Dāvletins kritizē arī nejutīgumu pret filoloģiju un vēsturi, kas raksturīga šāda veida pētījumiem:

Ko es redzu tekstā: bieži ir cilvēki, kuri vēlas ņemt avotu X un aizmirst, ka tas ir avots un pastāv kādā vēsturiskā, tostarp lingvistiskā kontekstā, un kaut kā kaut ko tajā ieskaita. Interesanta ir hipotēze, ka rokrakstā ir vairāk nekā viena valoda. Bet jūs kaut kā to varētu parādīt cilvēcīgi. Statistiskās metodes joprojām ir rezultātu mājieni, nevis rezultāti. -Albert Davletshin. Valodu salīdzinošo pētījumu centrs, IVKA RSUH

Nav kritērija, lai atšķirtu interesantus rezultātus no briesmīgiem

Līdzsvarotāku nostāju ieņēma salīdzinošās vēsturiskās lingvistikas (RSUH) eksperts Georgijs Starostins. Viņu vairāk interesēja tas, cik jaunās matemātiskās metodes ir noderīgas, lai atrisinātu problēmas, ar kurām saskaras valodnieki. “Rakstā uzrādītais modelis rada dīvainu iespaidu. No vienas puses, šķiet, ka tas pieder pie "neredzīgo" kategorijas, analizējot tekstuālos datus bez iepriekšējiem spriedumiem par alfabēta struktūru (piemēram, divdabji, piemēram, angļu valodas ch, sh, jāuzskata par divu burtu kombinācijām, lai gan tas faktiski ir viens skaņa). Savukārt no salīdzinātajām stīgām tiek izmesti patskaņi, kas, pēc teksta autoru domām, satur mazāk informācijas un drīzāk pievieno troksni. Kopumā testa bāze acīmredzami ir ļoti maza, tik daudzās valodās nav iespējams runāt par kaut ko fundamentālu."

Indoeiropiešu un urālu valodu salīdzināšanas rezultāti, kas sniegti raksta 3. salīdzinošajā tabulā, Starostinā īpašu optimismu nerada. Daži valodu tuvuma pakāpes rādītāji ir labi notverti (piemēram, vācu iekšējie vai romāniskie sakari), daži slikti (piemēram, metodoloģija vairs neidentificē indoeiropiešu ģimeni). Galvenais ir tas, ka nav kritērija, lai atšķirtu interesantus rezultātus no briesmīgiem. Labākajā gadījumā šī metode ļauj izdalīt nelielas valodu grupas (lai gan pat šeit tā nedarbojas starp cieši saistītām somu un igauņu valodām), taču visas šīs grupas var droši identificēt bez tās.

3. tabula no priekšdrukas, kurā sniegti rezultāti, salīdzinot indoeiropiešu un urālu valodas. Tāda pati krāsa tabulā. Tiek identificētas 3 valodu grupas, kas ir pārī tuvu (sakārtoto frekvenču sadalījumu L1 normas izpratnē tekstos bez patskaņa). Daži negaidīti tuvu valodu pāri ir atzīmēti ar sarkanu krāsu, piemēram, vācu / ungāru, angļu / igauņu, latīņu / basku un grieķu / somu. Preprint autori: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu. Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin S. A
3. tabula no priekšdrukas, kurā sniegti rezultāti, salīdzinot indoeiropiešu un urālu valodas. Tāda pati krāsa tabulā. Tiek identificētas 3 valodu grupas, kas ir pārī tuvu (sakārtoto frekvenču sadalījumu L1 normas izpratnē tekstos bez patskaņa). Daži negaidīti tuvu valodu pāri ir atzīmēti ar sarkanu krāsu, piemēram, vācu / ungāru, angļu / igauņu, latīņu / basku un grieķu / somu. Preprint autori: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu. Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin S. A

3. tabula no priekšdrukas, kurā sniegti rezultāti, salīdzinot indoeiropiešu un urālu valodas. Tāda pati krāsa tabulā. Tiek identificētas 3 valodu grupas, kas ir pārī tuvu (sakārtoto frekvenču sadalījumu L1 normas izpratnē tekstos bez patskaņa). Daži negaidīti tuvu valodu pāri ir atzīmēti ar sarkanu krāsu, piemēram, vācu / ungāru, angļu / igauņu, latīņu / basku un grieķu / somu. Preprint autori: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu. Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin S. A.

Visbeidzot, ir interesanta ideja noteikt valodas ģenētisko raksturojumu, sadalot Hursta eksponentu un, iespējams, pat nonākot līdz kādam zinātniskam punktam. Bet tam būs nepieciešams apstrādāt lielu skaitu tekstu dažādās valodās. Un problēma rodas uzreiz: daudzas valodas nav rakstītas, un tas, cik pareizi ir salīdzināt alfabētiskās ierakstīšanas sistēmas ar fonētiskajām transkripcijām, joprojām nav skaidrs. No šīs idejas praktiskās jēgas būs ļoti maz, Starostins ir pārliecināts. Labākajā gadījumā to patiešām var piemērot tādiem gadījumiem kā Voynich rokraksts, kad pastāv hipotēze, ka kāda valoda ar standarta alfabēta rakstu tiek šifrēta saskaņā ar noteiktiem principiem (piemēram, dzēšot patskaņus utt.). Tomēr šādu gadījumu pasaulē ir ļoti maz.

Summējot

Kas ir apakšējā rindā? Diskusija par IPM un MIPT pētījumiem atklāja dziļu plaisu starp valodas kopienu (pat statistisko metožu lietotāju) un “nepiederošajiem” attiecībā uz valodniecības speciālistiem, kuri nolēma savus matemātiskos rīkus pielietot valodas materiālam.

Tas, ka matemātiķi nevēlas strādāt kopā ar valodniekiem, nerada tikai rupjas kļūdas, kas pēc tam pāriet uz plašsaziņas līdzekļiem (piemēram, basku valodu priekšdrukā sauc par indoeiropiešu valodu, ir frāze "patskaņu burti"). Modeļu skaistums un superdatoru skaitļošanas jauda faktiski tiek devalvēta ar kļūdām ieejas punktā. Atkal, ar vēlmi un atvērtību kontaktiem ar kolēģiem no citas disciplīnas, no šīm kļūdām varēja viegli izvairīties.

Šeit skatiet pašu Voynich rokrakstu.