"Gravējumi ir ļoti svarīgi – tie ir pierādījumi tieši no avota, tos ar savu roku veidojuši tajā laikā dzīvojušie," preses konferencē žurnālistiem norādīja vēsturniece un mašīnmācīšanās eksperte Tea Someršīlda, kura ir viena no jaunā algoritma līdzautorēm.
Kā jau ar visiem mašīnmācīšanās algoritmiem, tas ir tik labs, cik labi bijuši izejas dati šī algoritma apmācīšanai. "Ithaca" trenēts ar datu kopu, kurā ir vairāk nekā 78 tūkstoši sengrieķu tekstu, katrs marķēts ar metadatiem par gravējuma aptuveno tapšanas laiku un vietu – cik nu precīzi vēsturniekiem to bija iespējams noteikt.
Tik seni gravējumi, protams, bieži vien ir daļēji izdzisuši, un atsevišķi burti vai pat vārdu un teikumu fragmenti nav salasāmi. "Ithaca" autori apgalvo, ka algoritms spēj ievietot tekstu izdzisušajās daļās ar 62% precizitāti jeb – sešos no 10 gadījumiem algoritma ievietotais burts būs pareizs. Tāpat algoritms spēj ar apmēram 70% precizitāti noteikt, kurā reģionā gravējums ir tapis un kad tas ir tapis – ar plus mīnus 30 gadu precizitāti.
Vēlreiz jāuzsver, ka apmācības datu kvalitāte, protams, nav absolūti nekļūdīga – ir iespējams, ka daļa no 78 tūkstošiem algoritma trenēšanā izmantoto tekstu ir datēti neprecīzi. Tā kā tie bieži iegravēti uz neorganiska materiāla – metāla, akmens –, tad radioaktīvā oglekļa datēšana kā precīza vecuma noteikšanas metode te nederēs. Taču tāpat šis algoritms varētu kļūt par būtisku palīgu seno tekstu analīzē, pat ja nav 100% precīzs. Lai cik zinošs būtu vēsturnieks, vienam cilvēkam gluži vienkārši nav iespējams prātā paturēt tik lielu datu apjomu un tos aplūkot kontekstā citam ar citu, lai saskatītu derīgas likumsakarības.
Tāpat arī "Ithaca" pats par sevi nebūs neatkarīgs seno tekstu analīzes ģēnijs, uz kuru nekritiski paļauties. Tā pielietojumu redz kontekstā ar cilvēku ekspertīzi. Algoritms piedāvā ieteikumus, kas varētu būt rakstīts gravējumu izdzisušajā daļā un cik sens varētu būt šis gravējums, un tad pētnieki lūko šos ieteikumus verificēt. Arī Someršīlda norādīja – "Ithaca" ir būvēts kā palīgrīks, ne aizvietotājs.
"Ithaca" no citiem līdzīgiem algoritmiem atšķir spēja integrēt tekstu restaurāciju ar ģeogrāfisko lokāciju un hronoloģiju. Algoritmu kā "aizraujošu ieviesumu, kas varētu palīdzēt paplašināt mūsu zināšanas par antīko pasauli" tehnoloģiju portālam "The Verge" novērtējusi Redingas Universitātes valodniece, sengrieķu un latīņu valodas eksperte Eleonora Dikija, kura pati lūkos jauno programmatūru izmēģināt. Tā ir atvērtā koda programmatūra un pieejama visiem interesentiem. Ja gribi izmēģināt, klikšķini šeit! Savukārt pētījums par "Ithaca" tapšanu lasāms šeit.
Turklāt algoritmu pēc līdzīga principa iespējams apmācīt ne tikai sengrieķu, bet arī citu valodu analīzei. Manuskripti, papirusi, gravējumi uz sienām – kas zina, ko jaunu "Ithaca" nākotnē pētniekiem palīdzēs "izlobīt" no atrastajiem tekstu fragmentiem!