Gemini 2.5 Computer Use: AI koji surfa i klika umjesto vas

Google je predstavio pregled svog novog AI modela, Gemini 2.5 Computer Use, dizajniranog da autonomno upravlja i izvršava zadatke unutar web preglednika, na isti način na koji bi to radio čovjek. Ova tehnologija omogućuje AI agentima da obavljaju radnje poput ispunjavanja online obrazaca ili testiranja korisničkih sučelja, otvarajući vrata novoj generaciji automatizacije.

Novi model koristi napredne sposobnosti "vizualnog razumijevanja i rezoniranja" kako bi analizirao korisnički zahtjev i zatim ga izvršio interakcijom s web stranicama – klikanjem, tipkanjem te povlačenjem i ispuštanjem elemenata. Ovo je ključno za automatizaciju zadataka na web odredištima koja nemaju dostupan API. Slične verzije ove tehnologije već se koriste u Googleovim istraživačkim projektima, poput "Project Mariner", gdje AI agent može samostalno dodavati proizvode u košaricu na temelju popisa.

Ova najava dolazi samo dan nakon što je konkurentski OpenAI na svom godišnjem događaju stavio naglasak na razvoj "ChatGPT Agenta", a tvrtka Anthropic je sličan "computer use" model za svoj Claude AI predstavila još prošle godine. Googleov potez jasan je pokazatelj da se utrka u razvoju naprednih AI agenata, koji mogu aktivno obavljati zadatke umjesto korisnika, zahuktava.

Iako Google tvrdi da njihov model nadmašuje vodeće alternative na web i mobilnim benchmark testovima, postoji ključno ograničenje. Za razliku od konkurencije, Gemini 2.5 Computer Use trenutno ima pristup isključivo web pregledniku i ne može kontrolirati cijeli operativni sustav računala. Zasad podržava 13 osnovnih akcija, poput otvaranja preglednika, tipkanja i povlačenja elemenata.

Model je trenutno dostupan razvojnim programerima putem platformi Google AI Studio i Vertex AI. Međutim, za širu javnost dostupan je demo na web stranici Browserbase.