Gemini sada stvara glazbu i pjeva na temelju vašeg teksta i slika

Nakon što je svladao pisanje teksta, generiranje slika i kreiranje videa, Googleov chatbot Gemini sada je naučio i pjevati. Tehnološki div upravo je predstavio svoj najnoviji model za generiranje glazbe, Lyria 3, koji korisnicima omogućuje stvaranje 30-sekundnih audio isječaka na temelju tekstualnih upita, pa čak i vizualnih predložaka.

Ovaj potez označava Googleov izravan ulazak u arenu generativnog zvuka, područje koje je do sada bilo obilježeno pravnim bitkama oko autorskih prava.

Proces kreiranja glazbe integriran je u Gemini sučelje jednako intuitivno kao i generiranje slika pomoću modela Nano Banana. Klikom na gumb "Create Music" (Stvori glazbu), korisnici dobivaju paletu opcija. Mogu birati između definiranih žanrova – od rapa 90-ih i latino popa do R&B-a i afropopa – ili, za one kreativnije, detaljno opisati raspoloženje, stil, vrstu vokala i tempo željene pjesme.

Najzanimljivija novost je multimodalnost. Lyria 3 može analizirati učitanu fotografiju i na temelju nje skladati pjesmu. Google je demonstrirao ovu mogućnost primjerom u kojem korisnik učitava fotografije psa i traži pjesmu o "pješačenju sa psom Duncanom u šumi". Gemini potom generira audio zapis s tekstom pjesme i pripadajućom naslovnicom albuma koju izrađuje Nano Banana.

Korisnici mogu preuzeti gotovu pjesmu ili je podijeliti putem poveznice.

Google je svjestan minskog polja autorskih prava u glazbenoj industriji. Iz tvrtke naglašavaju da cilj alata nije stvaranje remek-djela koja će se natjecati na top ljestvicama, već ponuda "zabavnog i jedinstvenog načina izražavanja".

Ključno je napomenuti da je model dizajniran za originalnu ekspresiju, a ne za imitiranje postojećih izvođača. Ugrađeni filteri trebali bi spriječiti generiranje sadržaja koji zvuči kao kopija poznatih pjevača ili bendova.

Kao dodatni sloj sigurnosti, sve pjesme generirane putem Geminija nosit će Googleov Synth ID vodeni žig. Riječ je o nečujnom digitalnom potpisu koji omogućuje identifikaciju AI sadržaja. Ako niste sigurni je li neki audio isječak stvorio čovjek ili stroj, moći ćete ga učitati natrag u Gemini i zatražiti provjeru.

Googleov oprezan pristup dolazi nakon burnog razdoblja za pionire AI glazbe. Platforme poput Suno i Udio dominirale su naslovnicama posljednjih godina, ali su se suočile s tužbama velikih diskografskih kuća (Sony, Universal Music, Warner Bros). I dok su neki sporovi riješeni nagodbama i licencnim ugovorima, Google želi izbjeći sličan scenarij strogim ograničenjima modela.

Istovremeno, YouTube (također u vlasništvu Googlea) već eksperimentira s AI alatima, uključujući nedavno predstavljeno generiranje popisa za reprodukciju (AI Playlists) za Premium korisnike. Lyria 3 također će biti integrirana u YouTubeov alat Dream Track za kreiranje Shorts videa.

Model Lyria 3 postaje dostupan od danas svim korisnicima starijim od 18 godina na desktop verziji Geminija, dok mobilna aplikacija slijedi u narednim danima.

Trenutno je podržano generiranje pjesama na engleskom, njemačkom, španjolskom, francuskom, hindi, japanskom, korejskom i portugalskom jeziku, s planovima za dodavanje novih jezika u budućnosti. Vjerujemo da nećemo morati dugo čekati za hrvatski.

Što se tiče cijene, Google nije specificirao točna ograničenja za besplatne korisnike, ali je potvrđeno da će pretplatnici na AI Plus, Pro i Ultra pakete uživati u većim kvotama za generiranje glazbe.