Gemini Omni može generirati 'bilo što iz bilo čega', počevši od videa

Google je danas službeno predstavio Gemini Omni, ambiciozni alat za generiranje videozapisa koji prijeti iz temelja promijeniti način na koji stvaramo digitalni sadržaj. Prema riječima samog proizvođača, ono što je model Nano Banana učinio za revolucionarizaciju AI slika, Omni namjerava učiniti za video. Spajanjem naprednih analitičkih sposobnosti jezičnog modela sa sposobnošću kreiranja realističnih vizuala, novi sustav omogućuje korisnicima stvaranje visokokvalitetnih videozapisa temeljenih na stvarnom znanju o svijetu.

Alat od danas započinje s postupnim uvođenjem kroz model Gemini Omni Flash, a bit će dostupan unutar same aplikacije Gemini, platforme Google Flow te sustava YouTube Shorts.

Digitalni avatari i pitanje autentičnosti

Jedna od najintrigantnijih, ali i najviše raspravljanih značajki novog alata jest mogućnost stvaranja osobnih digitalnih klonova. Omni omogućuje korisnicima generiranje videozapisa koristeći vlastiti glas i izgled kroz sustav digitalnih avatara. Ova inovacija kreatorima sadržaja nudi mogućnost delegiranja snimanja virtualnom dvojniku, što je iznimno praktično u trenucima kada uvjeti za pravo snimanje nisu idealni. Ipak, ista tehnologija budi opravdanu zabrinutost zbog potencijalnog rasta generičkog sadržaja i zloupotrebe identiteta. Kako bi preduhitrio takve scenarije, Google je u sve generirane videozapise integrirao svoju sigurnosnu tehnologiju SynthID, nevidljivi digitalni vodeni žig koji osigurava transparentnost i omogućuje laku provjeru podrijetla sadržaja.

Ugrađeni zakoni fizike i konverzacijsko uređivanje

Za razliku od ranijih verzija AI video alata u kojima su se objekti često ponašali nelogično, Omni se ističe dubokim razumijevanjem fizike stvarnog svijeta. Sustav intuitivno prepoznaje sile poput gravitacije, kinetičke energije i dinamike fluida, što rezultira iznimno realističnim i prirodnim ponašanjem elemenata u kadru.

Proces montaže također doživljava potpunu transformaciju zahvaljujući konverzacijskom sučelju. Umjesto korištenja složenih alata za rezanje i maskiranje, korisnici sada mogu mijenjati elemente unutar videa isključivo putem uputa u prirodnom jeziku. Moguće je jednostavno zatražiti uklanjanje neželjenih prepreka, dodavanje novih likova ili potpunu promjenu scenografije, dok umjetna inteligencija automatski pazi na dosljednost karaktera i fizičkih zakona iz prethodnih kadrova.

Multimodalni pristup i potencijal za profesionalce

Omni je dizajniran kao snažan multimodalni alat koji kao ulazne parametre prihvaća kombinaciju teksta, slika, postojećih videozapisa i zvuka, pretvarajući ih u kohezivni konačni proizvod. Iako trenutačno od zvučnih formata podržava isključivo ljudski glas, Google najavljuje skoru integraciju i ostalih zvučnih elemenata. Još uvijek ostaje nepoznanica hoće li sustav u konačnici podržavati izvoz u visokim rezolucijama poput 4K ili 8K, što je ključno za integraciju s profesionalnim softverima kao što su Premiere Pro ili Final Cut. Ipak, Google je potvrdio da će sve značajke Omnija uskoro biti dostupne poslovnim korisnicima i programerima putem službenog API sučelja.

Gemini Omni može generirati 'bilo što iz bilo čega', počevši od videa

Digitalni avatari i pitanje autentičnosti

Ugrađeni zakoni fizike i konverzacijsko uređivanje

Multimodalni pristup i potencijal za profesionalce

Gemini 3.5 Flash i AI agenti mijenjaju Google Search iz temelja

Zaboravite na klasičnu kupnju. Apple iz temelja mijenja način na koji nabavljamo mobitele i računala

Najnovije recenzije

Anker Soundcore Space 2: Vrhunska izrada i maratonska baterija po razumnoj cijeni [RECENZIJA]

Anker Soundcore Liberty 5 Pro: Jesu li ovo najbolje slušalice u srednjoj klasi? [RECENZIJA]

Motorola Edge 70 Fusion: Elegancija i ogromna baterija ipak mogu zajedno [RECENZIJA]

Najpopularnije

Najnoviji AI model počeo ucjenjivati inženjere kad su ga htjeli zamijeniti drugim

Kada i zašto izbjegavam AI: nedostaci, ograničenja i razočaranja

Zašto je Samsung One UI 8 iznimno važna nadogradnja?

Apple zbog Trumpovih carina planira globalno poskupljenje iPhonea

Samsung Galaxy Z Fold 7: prva fotografija uživo?

Kako pravilo "tri riječi" poboljšava vaše ChatGPT upite