Mākslīgie neironu tīkli ir datorsistēmas, kas veidotas, iedvesmojoties no neironu tīkliem dzīvu būtņu smadzenēs. Tīklu veido savstarpēji savienotu mezglu – mākslīgo neironu – kopums. Tie, gluži kā neironi dzīvu būtņu smadzenēs ar sinapsēm (funkcionāliem neironu savienojumiem), spēj sazināties cits ar citu, apmainīties signāliem. Šādi tīkli ir ļoti sarežģīti, mākslīgajiem neironiem tiekot izkārtotiem noteiktās konfigurācijās un parasti daudzos jo daudzos slāņos, un šo izkārtojumu dēvē par neironu tīkla arhitektūru. Neironu tīkla veiktspēja ir atkarīga gan no tā, cik laba ir konkrētā arhitektūra, gan no tā, cik labi neironu tīkls ir apmācīts. Šādu tīklu spēcīgā puse – tie nav kā fiksēti algoritmi, kas pielāgoti viena konkrēta uzdevuma veikšanai, bet gan elastīgs ietvars, kas piemērojams dažādiem uzdevumiem. Kā noprotams, laba neironu tīkla izstrādāšana un optimizēšana nav dažu dienu jautājums, ņemot vērā mūsdienu datu apjomu.
"Quanta Magazine" raksta, ka parasti apmācības procesā jāatrod vēlamās vērtības miljoniem, reizēm pat miljardiem parametru, lai no konkrētās arhitektūras "izspiestu" maksimālo. Parasti ar šīm vērtībām domāts tas, cik liels "svars" jeb nozīme ir konkrētajam neironam, kas attiecīgi palielina vai samazina signāla stiprumu konkrētajā savienojumā jeb mākslīgajā sinapsē. "Apmācība var prasīt dienas, nedēļas, pat mēnešus," skaidro mākslīgā intelekta kompānijas "DeepMind" zinātnieks Pētars Velčikovičs. Kņazevs ar kolēģiem lūko optimizēt pašu optimizācijas procesu, faktiski apmācot mākslīgo neironu tīklu citu šādu tīklu apmācīšanai. Taču vispirms jāatgriežas dažus gadus senā pagātnē.
Nianšu ir daudz, bet vispārīgi skatoties, viens no galvenajiem mākslīgo neironu tīklu optimizēšanā izmantotajiem paņēmieniem ir stohastiskā gradienta metode (SGD – stochastic gradient descent). Piemēram, optimizējot mākslīgo neironu tīklu attēlu atpazīšanas nolūkiem, apmācības procesā neironu tīklam tiek likta priekšā milzīga datu kopa ar manuāli marķētiem attēliem. Daļā no tiem ir redzams cilvēks, daļā attēlu cilvēka nav. SGD algoritms atkal un atkal iet cauri šai datu kopai, katrā iterācijā jeb atkārtojumā nejaušināti izvēloties nelielu izlasi vai pat tikai kādu vienu datu punktu no visas kopas, to analizējot un pēc katras iterācijas pielāgojot tīkla parametrus. Šādu iterāciju var būt tūkstošiem, līdz sasniegts vēlamais rezultāts. Taču galu galā optimizēts mākslīgo neironu tīkls varēs ar augstu precizitāti vien pēc vizuāliem parametriem bildēs atpazīt cilvēkus arī datu kopās, kuras iepriekš nav "redzējis".
Taču, lai vispār tiktu pie apmācīšanas, jābūt pašam mākslīgo neironu tīklam, ko apmācīt. Kā izstrādāt lielisku un efektīvu mākslīgo neironu tīkla arhitektūru? Te bieži vien nav niansēti definētu valdīniju, tā vietā inženieriem nereti jāpaļaujas uz vispārīgiem pamatprincipiem, profesionāļa intuīciju un pieredzi. Tīkli var krasi atšķirties cits no cita gan ar to, cik slāņos mākslīgie neironi izkārtoti, gan to, cik katrā slānī ir šo mezglu un tā tālāk.
Var sākt ar daudz un dažādām modelētām mākslīgo neironu tīklu arhitektūrām, tad mēģināt optimizēt katru no tām un beigās izvēlēties spēcīgāko un vislabāk optimizējamo. Taču šī pieeja prasa milzum daudz laika, kā "Quanta Magazine" atzinis "Google Brain" viespētnieks Mengje Rens. Katru no kandidātu tīkliem apmācīt un iztestēt ir neiespējamā misija, jo iespējamo variantu burtiski ir miljoniem. Tāpēc 2018. gadā Rens, tolaik vēl Toronto Universitātes pētnieks, kopā ar kolēģi Krisu Džanu radīja mākslīgo neironu tīklu, ko nodēvēja par grafika hipertīklu (GHN) – tīklu, kas optimizēts dažādu mākslīgo neironu tīklu arhitektūru variantu izvērtēšanai, atlasot veiksmīgākos dizainus.
Kņazevs ar kolēģiem, pamanījis Rena un Džana veikumu, saskatīja iespēju darbu turpināt, taču šoreiz pievēršoties nevis rīkam, kas palīdz izstrādāt veiksmīgu mākslīgo neironu tīkla arhitektūru, bet apmācības optimizēšanai. Ja Rena un Džana izstrādātais hipertīkls no dota paraugu kopuma spēja izvēlēties veiksmīgāko arhitektūru, tad Kņazeva hipertīkls jau spēj prognozēt vēlamos optimizācijas parametrus, lai mākslīgo neironu tīkls spētu piepildīt savu maksimālo potenciālu. Arī Rens atzinis Kņazeva komandas veikumu, norādot, ka "tas ir ļoti pamatīgs pētījums. Viņi veikuši daudz vairāk eksperimentu, nekā to darījām mēs, un strādājuši ļoti cītīgi, lai uzlabotu tīkla kopējo veiktspēju".
Kņazeva komanda savu mākslīgo neironu hipertīklu nodēvēja par GHN-2, tādējādi apliecinot arī Rena un Džana ieguldījumu, kuru darbs bija pamatā šīs idejas attīstīšanai. Taču jāatzīmē, ka Kņazevs ar kolēģiem savu tīklu izstrādāja no nulles, nevis vienkārši papildināja pirmo hipertīkla variantu, jo tā pirmkods nebija publicēts.
Lai apmācītu GHN-2 sekmīgāko arhitektūru atpazīšanā un atlasē, Kņazevs izmantoja iespaidīgu datu kopu, kurā bija apmēram miljons dažādu iespējamu mākslīgo neironu tīklu arhitektūras piemēru. Tās tika radītas pilnīgi nejaušināti un pēc iespējas atšķirīgākas, lai GHN-2 būtu vispusīga un plaša "mācību viela".
Lai pārbaudītu šī hipertīkla veiktspēju prognozēt vēlamos mākslīgo neironu tīklu parametrus, Kņazeva komanda lika GHN-2 noteikt optimālos parametrus 500 dažādiem mākslīgo neironu tīkliem, kurus GHN-2 iepriekš nebija "redzējis". Tad pēc GHN-2 vadlīnijām optimizētie neironu tīkli tika izmēģināti darbībā, pretī liekot šos pašus 500 neironu tīklus, bet apmācītus ar SGD metodi. Ne vienā vien gadījumā GHN-2 optimizēto tīklu veiktspēja bija pielīdzināma tiem tīkliem, kas pamatīgi uztrenēti ar SGD metodi. Kņazeva komanda pierādījusi, ka mākslīgo neironu tīkls spēj pats būvēt un optimizēt veiktspējīgus tīklus, bieži vien ietaupot gan laiku, gan energoresursus, ja salīdzina ar tradicionālākām tīklu optimizācijas metodēm. Tiesa, tie ir tikai pirmie soļi šajā virzienā, un paredzams, ka šī metode dažos aspektos var būt arī visai problēmātiska.
Ar pētījumu nesaistītais "DeepMind" zinātnieks Pētars Velčikovičs atzinis, ka rezultāti ir patiešām iespaidīgi, taču norādījis – ja mākslīgo neironu tīkli, kas prognozē parametrus un faktiski būvē citus mākslīgo neironu tīklus, kļūs par izplatītu metodi, tad process principā notiek prom no cilvēku acīm, "melnajā kastē". Ja hipertīkls kaut kur pieļauj kļūdu, būs visai grūti to identificēt un attiecīgi saprast, tieši kur optimizācijas procesā nošauts šķērsām.