Od prvih impresivnih demonstracija generativne umjetne inteligencije, te nakon što su noviji LLM modeli ušli u našu svakodnevicu, traje intenzivna rasprava o njihovoj pravoj prirodi. Dok direktori tehnoloških divova govore o "digitalnoj superinteligenciji", a znanstvenici koriste termine poput "razmišljanja" kako bi opisali njihove sposobnosti, raste i otpor unutar znanstvene zajednice. Novo, rigorozno istraživanje sada nudi snažne dokaze da ono što percipiramo kao AI "razmišljanje" možda nije ništa više od iznimno sofisticiranog prepoznavanja uzoraka.
Problem leži u tome što su veliki jezični modeli (LLM) notorne "crne kutije". Čak ni znanstvenici koji su ih stvorili ne razumiju u potpunosti sve procese koji se odvijaju kada model primi upit i generira odgovor. U taj prostor nepoznanice uselila se retorika koja AI-ju pripisuje ljudske osobine, što je, tvrde kritičari, preraslo u znanstveno neutemeljenu hiperbolu.
"Krhka varka": Eksperiment koji razotkriva AI
U znanstvenom radu objavljenom prošlog mjeseca, tim istraživača sa Sveučilišta u Arizoni, predvođen Chengshuaijem Zhaom, proveo je jednostavan eksperiment kako bi testirao tvrdnje o sposobnosti "razmišljanja" AI modela. Njihov zaključak je oštar: takozvano "razmišljanje kroz lanac misli" (Chain-of-Thought - CoT) je "krhka varka". Ne radi se o mehanizmu za istinsko logičko zaključivanje, već o "sofisticiranom obliku strukturiranog prepoznavanja uzoraka".
Termin "lanac misli" odnosi se na detaljan prikaz procesa koji AI modeli ispisuju prije davanja konačnog odgovora, ostavljajući dojam dubokog promišljanja. No, tim iz Arizone tvrdi da se LLM-ovi oslanjaju na površinsku semantiku i naučene asocijacije između riječi (tokena), a ne na stvarne logičke procedure.
Kako bi to dokazali, proveli su eksperiment nazvan "podatkovna alkemija". Od nule su trenirali stariji OpenAI-jev model, GPT-2, koristeći isključivo 26 slova engleske abecede. Zatim su mu zadali jednostavne zadatke manipulacije slovima, poput pomicanja svakog slova u nizu za određeni broj mjesta. Ključno je bilo to što su neki zadaci bili uključeni u podatke za treniranje, dok su drugi, potpuno novi, predstavljeni modelu tek u fazi testiranja.
Rezultati su bili porazni. Kad se suočio sa zadatkom koji nikada prije nije vidio, model nije uspio doći do točnog rješenja. Pokušao je primijeniti "lanac misli" temeljen na najsličnijim zadacima iz treninga, generirajući proces koji je zvučao logično, ali je vodio do potpuno pogrešnog odgovora. To, tvrde istraživači, dokazuje da AI ne zaključuje, već samo pokušava primijeniti poznate obrasce na nove situacije.
Marketinški mitovi i znanstvena stvarnost
Ironično, pojam "lanac misli" potječe iz znanstvenog rada Googleovog tima iz 2022. godine. Oni su primijetili da poticanje modela da ispiše korake rješavanja problema dovodi do točnijih odgovora. Međutim, originalni autori bili su vrlo oprezni i eksplicitno su naveli da to ne odgovara na pitanje "razmišlja li neuronska mreža doista", ostavljajući to otvorenim pitanjem.
Od tada su, tvrde kritičari, tehnološki lideri poput Sama Altmana preuzeli taj tehnički pojam i, kroz "ležernu i nemarnu retoriku", pretvorili ga u marketinški alat koji sugerira postojanje ljudske inteligencije u stroju.
Opasnost od "tečnog besmisla" i kako se zaštititi
Istraživači upozoravaju na opasnost od onoga što nazivaju "tečnim besmislom" (fluent nonsense). Sposobnost AI-ja da proizvede uvjerljiv, ali logički pogrešan lanac zaključivanja može biti opasnija od izravno netočnog odgovora, jer stvara lažni dojam pouzdanosti.
Njihov savjet korisnicima je dvojak. Prvo, "čuvajte se pretjeranog oslanjanja i lažnog samopouzdanja" u sposobnosti AI-ja. Drugo, ako je to moguće, testirajte modele zadacima za koje je malo vjerojatno da su bili dio njihovog treninga kako biste vidjeli njihove stvarne granice.
Ovaj rad je važan podsjetnik da umjetnoj inteligenciji treba pristupati sa znanstvenom strogošću, a ne slijepim vjerovanjem, te da je ključno razumjeti što strojevi uistinu rade, umjesto da im pripisujemo ljudske sposobnosti koje vjerojatno ne posjeduju.