Da mi je netko prije deset godina rekao da ćemo jednog dana na mobitelu iz nekoliko riječi moći stvriti fotorealističnu sliku. rekao bih mu da je lud.
Ipak, danas vaš pametni telefon može pretvoriti vaše riječi u vizualnu sliku pomoću umjetne inteligencije. Istina, rezultati nisu uvijek savršeni. Ponekad mogu biti i pomalo uznemirujući, ali je samo postignuće i dalje nevjerojatno. Stroj obavlja kreativni zadatak koji je nekad bio isključivo u domeni ljudi, iako tehnički još uvijek uvelike ovisi o ljudskom radu i doprinosu.
Tehnologija koja to omogućuje naziva se neuronska mreža. Pojam "neuronska" nije slučajan; izravno se odnosi na ljudski živčani sustav. Iako računala nisu živi organizmi i nemaju biološki živčani sustav, osmišljena su tako da digitalno oponašaju te procese. Upravo ta imitacija čini osnovu moderne umjetne inteligencije, kroz takozvanu konvolucijsku neuronsku mrežu.
Ipak, oni to ne rade na isti način kao ljudi, ali proces je jednako fascinantan, čak i ako je znatno manje složen od koordinacije između ljudskog oka i mozga.
Povezano: Usporedio sam ChatGPT 4.5 i Gemini Pro 2.5. Evo dojmova
Razmislite kako ljudi prepoznaju predmete: ne moramo zapamtiti svaku moguću varijaciju da bismo stvari prepoznali. Na primjer, odmah možete prepoznati majicu bez obzira na njezinu boju ili stil jer vaš mozak razumije osnovni koncept majice. AI djeluje na sličnom principu. Treniran je analizom stotina milijuna slika, od kojih je svaka označena opisnim informacijama koje točno opisuju što slika prikazuje.
Pogledajmo primjer kako AI vidi i opisuje sljedeću sliku:
„Na slici se nalazi komad bureka poslužen na bijelom tanjuru s vilicom. Burek izgleda kao varijanta sa sirom, prepoznatljiv po slojevima tankog tijesta i bijelom nadjevu, najvjerojatnije od sira ili vrhnja. Površina je zlatno-smeđa i hrskava, što ukazuje na svježe pečenje. Fotografija je estetski ugodna, minimalistička, s neutralnom pozadinom koja ističe teksturu jela.“
Vremenom će model moći primiti upit i generirati odgovarajuće obrasce vizualnog "šuma" koji će stvoriti sliku, jer ima dovoljno prave vrste podataka. Svaki element u analiziranoj slici ima značaj, ne samo burek koji bismo vi i ja primijetili.
Uz dovoljno analiziranih podataka, model može koristiti te informacije kao putokaz ili niz uputa za izradu nove slike koja odgovara korisničkom zahtjevu. Ne radi se o tome da AI uzima dijelove već postojećih slika i spaja ih poput slagalice — umjesto toga, on generira obrasce vizualnog šuma. Kada je dovoljno istreniran, ti obrasci na kraju postaju prepoznatljive slike.
To također objašnjava zašto neki modeli ponekad naprave velike pogreške. Umjetna inteligencija može stvarati samo na temelju onoga na čemu je trenirana. Ako u trening setu postoji 100.000.000 fotografija crnih pasa, ali nijedna slika smeđeg psa, AI nikada neće moći stvoriti sliku smeđeg psa, bez obzira koliko precizno mu pokušate objasniti što želite.
Na našem primjeru, ako model prouči dovoljno slika jela poput bureka, može naučiti koje su njegove vizualne karakteristike — slojevi tankog tijesta, zlatno-smeđa, hrskava površina, bijeli sirasti nadjev, itd. Na temelju toga može generirati realističnu sliku bureka koja izgleda kao da je fotografirana. No ako nikada nije 'vidio' burek, neće moći ispravno generirati takvu sliku i ona bi mogla izgledati neprepoznatljivo ili čak pogrešno. Upravo zato je kvaliteta i raznolikost podataka ključna za točnost rezultata.