U najnovijem iskoraku na polju umjetne inteligencije, Google je objavio da je njihova napredna verzija jezičnog modela, Gemini 3.5 Flash, dobila sposobnost izravnog vizualnog prepoznavanja ekrana i autonomnog upravljanja računalnim sučeljima. Umjesto da AI samo generira tekstualne odgovore, ovaj model sada može preuzeti ulogu aktivnog agenta koji navigira preglednikom, klika, upisuje podatke i samostalno izvršava složene zadatke na zaslonu korisnika.
Od rezervacije letova do rješavanja zagonetki
Do sada je za razvoj ovakvih autonomnih agenata bio potreban specijalizirani model, poput starijeg Geminija 2.5, dizajniranog isključivo za korištenje na računalu. Google je tu funkcionalnost sada tvornički ugradio izravno u model 3.5 Flash, čime je razvoj naprednih AI alata znatno pojednostavljen. Nova je značajka trenutno dostupna programerima i korporativnim klijentima putem Gemini API-ja te platforme Gemini Enterprise Agent.
Kako bi demonstrirali potencijal ove tehnologije, Googleovi inženjeri stvorili su radnu okolinu u kojoj korisnici mogu zadati zadatak modelu. Nakon unosa prompta, Gemini preuzima kontrolu. Testiranja novinara pokazala su nevjerojatnu razinu autonomije; na zahtjev za pronalaskom najjeftinijih letova od New Delhija do Tokija, AI je samostalno otvorio tri različite web stranice za rezervaciju, popunio obrasce s datumima polaska i povratka, usporedio cijene karata te na kraju isporučio konačni izvještaj. Model je sposoban i rješavati interaktivne zagonetke poput popularne igre 2048, samostalno donoseći odluke o pomicanju polja kako bi ostvario najbolji rezultat.
Fokus na sigurnost i zaštitu od zlouporabe
Sposobnost umjetne inteligencije da samostalno "klika" i pretražuje internet po računalu logično povlači ozbiljna sigurnosna pitanja, posebice unutar korporativnog sektora. Kako bi adresirao te rizike, Google je implementirao specifične sigurnosne mehanizme temeljene na takozvanom "ciljanom suparničkom treniranju".
Novi model dolazi s dva ključna zaštitna sloja. Prvi omogućuje administratorima konfiguraciju sustava na način da AI mora zatražiti izričitu potvrdu korisnika prije izvršavanja bilo kakvih osjetljivih ili nepovratnih radnji, poput financijskih transakcija ili brisanja podataka. Drugi sigurnosni sloj automatski zaustavlja rad agenta ukoliko sustav detektira pokušaj takozvanog "prompt-injection" napada, kojim bi zlonamjerni korisnik pokušao preusmjeriti AI na štetne zadatke. Unatoč ovim ugrađenim mjerama, Google snažno preporučuje programerima da ovakve agente obavezno koriste unutar sigurnih izoliranih okruženja (sandbox) uz obaveznu ljudsku verifikaciju.
