Top teme

DeepSeek uzdrmao AI svijet i potopio burze. Evo kako je to postigao

AI arena dobila novog igrača. Nakon demonstracije moći i sposobnosti kineskog DeepSeek AI alata, mega-popularni ChatGPT i ostali jezični modeli umjetne inteligencije su odjednom zasjenjeni.

Ono što je zanimljivo je podatak da je tvrtka osnovana 2023. godine i da je koristila samo djelić kapitala s kojim raspolaže OpenAI, sa sada već 10-godišnjim iskustvom.

DeepSeek je, dakle, s mnogo manje novca i resursa uspio postići iste ili bolje rezultate od najnaprednije verzije ChatGPT-a, što je jučer uzrokovalo potres na američkim tržištima kapitala. Samo Nvidia je izgubila preko 600 milijardi dolara vrijednosti, a ukupni gubitak ulagača na njujorškoj burzi iznosio je preko 1200 milijardi.

Što je to revolucionarno DeepSeed donio u svijet umjetne inteligencije?

DeepSeek je predstavio novi "rezonirajući" R1 jezični model, što je izazvalo spomenuti potres u tehnološkom svijetu i tržištu kapitala, no priča počinje nešto ranije.

U prosincu je lansirao vlastiti V3 model, inače moćan "standardni" veliki jezični model (LLM) koji radi na sličnoj razini kao ChatGPT.

Iako su ovi modeli skloni pogreškama i ponekad izmišljaju vlastite činjenice, mogu obavljati zadatke poput odgovaranja na pitanja, pisanja eseja i generiranja računalnog koda. Na nekim testovima rješavanja problema i matematičkog zaključivanja postižu bolje rezultate od prosječnog čovjeka.

V3 je osposobljen uz cijenu od oko 5,58 milijuna američkih dolara, što je dramatično jeftinije od ChatGPT-a 4, čiji razvoj trenutno ima cijenu veću od 100 milijuna.

DeepSeek navodi da je V3 model trenirao koristeći oko 2000 specijaliziranih računalnih čipova, i to H800 GPU-ova, koje je proizvela Nvidia. To je opet puno manje od drugih tvrtki, koje su možda koristile do 16.000 snažnijih H100 čipova. 20. siječnja DeepSeek je objavio novi model, nazvan R1. Ovo je takozvani model "rezoniranja", koji pokušava korak po korak riješiti složene probleme. Ispostavilo se da je bolji u mnogim zadacima koji zahtijevaju kontekst i imaju više međusobno povezanih dijelova, kao što su razumijevanje pročitanog i strateško planiranje.

Model R1 je prilagođena verzija modela V3, modificirana tehnikom koja se zove „reinforcement learning“ u slobodnom prijevodu „pojačano učenje“.

DeepSeek je u ovu svrhu koristio istu tehniku ​​za izradu "rezonirajućih" verzija manjih modela otvorenog koda, koji se mogu izvoditi na prosječnim računalima.

Dakle, uspjeh DeepSeeka je u postizanju veće učinkovitosti, tj. postizanja dobrih rezultata s manje resursa. Konkretno, programeri DeepSeek-a su postali pioniri u dvije tehnike koje bi istraživači umjetne inteligencije mogli usvojiti u širem smislu.

Prvi je povezan s idejom koja se zove „sparsity“ odnosno "razrijeđenost". Modeli umjetne inteligencije imaju puno parametara koji određuju njihove odgovore na inpute (V3 ima oko 671 milijardu), ali samo mali dio tih parametara se zapravo koristi.

Međutim, nije lako predvidjeti koji će parametri biti potrebni. DeepSeek je upotrijebio novu tehniku ​​da to čini, a zatim je trenirao samo te konkretne parametre. Kao rezultat, njegovi modeli zahtijevaju puno manje treniranja nego klasični pristup.

Drugi trik je povezan s načinom na koji V3 pohranjuje informacije u memoriju računala. DeepSeek je pronašao način komprimiranja relevantnih podataka, tako da ih je lakše pohraniti i brzo im pristupiti.

Također, DeepSeek modeli i tehnike objavljeni su pod besplatnom licencom, što znači da ih svatko može preuzeti i modificirati.

Iako bi ovo mogla biti loša vijest za neke AI tvrtke, čija bi dobit mogla biti smanjena postojanjem besplatnih moćnih modela, odlična je vijest za širu istraživačku AI zajednicu.

Trenutačno mnoga istraživanja umjetne inteligencije zahtijevaju pristup ogromnim količinama računalnih resursa, a imaju i ograničenu sposobnost provođenja testova i eksperimenata.

Učinkovitiji modeli i tehnike, poput ovih koje je predstavio DeepSeek, iz temelja mijenjaju situaciju. Eksperimentiranje i razvoj sada bi mogli biti znatno lakši.

Za krajnje korisnike bi pristup umjetnoj inteligenciji također mogao postati jeftiniji. Više AI modela može se pokrenuti na samim uređajima korisnika, kao što su prijenosna računala ili pametni telefoni, umjesto da rade "u oblaku", za što je opet potrebno plaćanje pretplate.

DeepSeek priča, naravno, nije završena. U ovom trenutku nije jasno hoće li njegov pristup pomoći u izradi modela s boljim ukupnim performansama ili jednostavno modela koji su učinkovitiji. Također, nakon inicijalnog uspjeha s jezičnim modelima, DeepSeek je objavio da kreće na vizualne, što znači da uskoro možemo očekivati osjetan napredak i na polju AI generirane fotografije i videa.

U svakom slučaju, pred nama je zanimljivo razdoblje.

Advertisement Advertisement