Kad jautājām ļoti spējīgajai un populārajai mākslīgā intelekta valodas sistēmai GPT-3, vai tā izmantos karti no papīra vai akmeni, lai pavēdinātu to virs kvēlojošām oglēm grilā un atkal iekurtu liesmu, GPT-3 izvēlējās akmeni. Un vai saburzīta krekla izgludināšanai labāk izmantot siltu termosu vai matu saspraudi? GPT-3 teica, lai ņemam saspraudi. Un ko darīt, ja vajadzīga galvassega, jo tu strādā ātrās ēdināšanas restorānā? Vai labāk šo funkciju pildīs sviestmaižu ietinamais papīrs vai burgera bulciņa? GPT-3 izvēlējās bulciņu. Kāpēc GPT-3 izvēles bija tik dīvainas scenārijos, kur vairums cilvēku izvēlētos otru variantu? Tāpēc, ka GPT-3 nesaprot valodu tā, kā to saprot cilvēki.
Vārdi bez miesas
Viens no šī raksta autoriem ir psiholoģijas pētnieks, kurš pirms vairāk nekā 20 gadiem izdomāja augstāk minētajiem līdzīgus scenārijus, lai pārbaudītu tā laika datorizēto valodu modeļu spējas. Arī toreiz tie nespēja veikt loģiskas izvēles situācijās, kas cilvēkiem šķiet pašsaprotamas, un tā vietā grilā uguns "uzpūšanai" kvēlojošās oglēs izvēlējās akmeni, nevis papīra karti.
Otrs raksta autors ir kognitīvo zinātņu doktorants, viens no komandas, kas nesen šādi pārbaudīja GPT-3. Kaut GPT-3 tika galā labāk nekā vecāki valodu modeļi, tas atbildēja krietni ačgārnāk nekā cilvēki, tostarp pilnīgi griezi uz ievadā minētajiem scenārijiem.
Es esmu, tātad saprotu
Vārdu vai teikumu nozīme ir cieši saausta ar cilvēka ķermeni: cilvēka spēju rīkoties, apjaust, sajust emocijas. Cilvēka kognīciju iespējo fakts, ka tā ir iemiesota. Kad cilvēki domā par tādu jēdzienu kā "sviestmaižu ietinamais papīrs", šī domāšana jau ietver izpratni, kā priekšmets izskatās, kāda ir sajūta, to turot rokā, cik daudz tas sver, un secīgi – kā mēs to varam izmantot. Piemēram, lai ietītu sviestmaizi. Un ne tikai. Cilvēki arī izprot, kā šo priekšmetu var lietot citiem nolūkiem – saņurcīt to bumbiņā, lai iemestu grozā. Vai izmantot kā galvassegu.
Visi šie pielietojumi mums nāk prātā tikai tāpēc, ka spējam priekšmetu sajust ar savu ķermeni un ka mums ir noteiktas vajadzības. Cilvēkiem ir rokas, lai papīru saņurcītu. Ir galva ar matiem, kas ir apmēram tādā pašā izmērā kā ietinamā papīra loksne. Un mums ir vajadzība strādāt, tātad arī sekot zināmiem noteikumiem (piemēram, ka darba vietā jāvelk galvassega). Cilvēki izprot, kā lietot priekšmetus, un šīs zināšanas valodas statistiska analīze nespēj dot.
GPT-3 un tā pēctecis GPT-4, kā arī tādi šo valodu modeļu "brālēni "kā "Bard", "Chinchilla" un "LLaMA" ir bez ķermeņiem. Tie paši par sevi nespēj noteikt, kurus objektus var salocīt, un kādas citas īpašības tiem varētu piemist. Psihologs Džeimss Gibsons tās dēvēja par "pielaidēm" (proti, kādas darbības ar konkrētu objektu iespējams veikt – red.). Tā kā cilvēkiem ir plaukstas un rokas, tie papīra karti var izmantot, lai vēdinātu gaisu virs gruzdošām oglēm un iedegtu liesmu, kā arī ar termosu var izrullēt krokas saburzītā kreklā.
Bez rokām un arī bez jebkādas vajadzības uz darbu vilkt mugurā nesaburzītas drēbes GPT-3 nespēj noteikt objektu pielietojumu. Tas var vienīgi viltot šo izpratni gadījumos, ja iepriekš internetā esošo vārdu virknēs ir saskāries ar ko līdzīgu.
Vai lielie valodu modeļi jebkad izpratīs valodu tā, kā to izprot cilvēki? Mūsu ieskatā tas nav iespējams bez cilvēkiem līdzīga ķermeņa, maņām, mērķiem un dzīvesveida.
Virzībā uz izpratni
GPT-4 ir apmācīts ne tikai ar tekstu, bet arī ar attēliem. Tādējādi tas spēj jau noteikt statistiskas sakarības starp vārdiem un pikseļiem. Pagaidām nevaram GPT-4 veikt tādu pašu analīzi kā iepriekš, jo tas šobrīd neizvada datus par varbūtību, ko tas piešķir vārdiem teikumos.
Tomēr, kad uzdevām GPT-4 trīs ievadā minētos jautājumus, tas atbildēja pareizi. Iespējams, valodas modelis mācījies no iepriekšējiem ievades datiem. Varbūt palīdzēja tas, ka apmācībā izmantoti arī vizuāli dati.
Nesen veikti pētījumi šajā virzienā, un valodas modeļi apmācīti mijiedarboties ar fizisko vidi. Tomēr iemiesota izpratne par valodu aizvien varētu būt visai tālā nākotnē. Taču šādi interaktīvi multisensorie projekti ir būtisks solis ceļā uz šo mērķi.
"ChatGPT" ir fascinējošs rīks, kas bez šaubām tiks izmantots kā labiem, tā ne tik labiem nolūkiem. Tomēr neļaujiet sevi apmuļķot, ka tas patiesi saprot paša ģenerēto vārdu nozīmi. Kur nu vēl – ka tam ir apziņa.
--
Šis raksts ir pārpublicēts no "The Conversation" saskaņā ar "Creative Commons" licenci un autoru atļauju. Visu rakstu oriģinālvalodā var lasīt vietnē "The Conversation".
Raksta autori ir Arturs Glenbergs (Arthur Glenberg) Arizonas Štata universitātes (Arizona State University) emeritētais profesors psiholoģijā un Kamerons Roberts Džounss (Cameron Robert Jones), Kalifornijas Universitātes Sandjego (University of California, Sandiego) kognitīvo zinātņu doktorants.