DeepSeek predstavlja novu metodu treniranja AI modela koja bi mogla (opet) poremetiti tržište

U sam smiraj protekle godine, svijet umjetne inteligencije tiho je upoznat s potencijalno revolucionarnom metodom obuke naprednih jezičnih modela. Istraživački tim DeepSeeka objavio je znanstveni rad koji detaljno opisuje koncept nazvan "Manifold-Constrained Hyper-Connections" ili skraćeno mHC. Prema prvim analizama, ova metoda mogla bi inženjerima omogućiti izgradnju i skaliranje velikih jezičnih modela (LLM) bez astronomskih računalnih troškova koji su dosad bili industrijski standard.

Povratak "ubojice divova"

DeepSeek je stupio pod svjetla globalne pozornice točno prije godinu dana, lansiranjem modela R1 u siječnju 2025. Taj je model šokirao američke tehnološke divove jer je nudio sposobnosti ravne OpenAI-jevom modelu o1, ali je navodno bio treniran uz drastično manje troškove. R1 je bio dokaz da pristup neograničenim financijskim rezervama i najskupljim čipovima nije jedini put do vrhunske umjetne inteligencije.

Novi rad o mHC-u, objavljen na repozitoriju arXiv (gdje znanstvenici dijele rezultate prije recenzije), sugerira da DeepSeek ne planira stati. Štoviše, ova arhitektura mogla bi poslužiti kao tehnološki temelj za njihov dugo iščekivani model R2. Lansiranje R2 modela očekivalo se sredinom prošle godine, ali je odgođeno zbog navodnih ograničenja u pristupu naprednim AI čipovima (uslijed sankcija) te zabrinutosti direktora tvrtke, Lianga Wenfenga, oko performansi modela.

Rješavanje problema "pokvarenog telefona" u neuronskim mrežama

Srž inovacije koju donosi mHC leži u rješavanju fundamentalnog problema dubokih neuronskih mreža. LLM-ovi se sastoje od slojeva, a signal se mora očuvati dok prolazi kroz njih. Međutim, što se više slojeva dodaje, signal postaje slabiji ili degradiran, pretvarajući se u šum. To je fenomen sličan dječjoj igri "pokvarenog telefona": što više ljudi prenosi poruku, veća je šansa da će se izvorna informacija izobličiti.

Izazov je, dakle, optimizirati odnos između plastičnosti (sposobnosti učenja) i stabilnosti (očuvanja signala).

Autori rada, među kojima je i sam CEO Liang Wenfeng, nadogradili su koncept hiper-konekcija (HC), koji su 2024. predstavili istraživači iz ByteDancea. Dok HC diversificira kanale kojima slojevi dijele informacije, on sa sobom nosi rizik gubitka signala i zahtijeva ogromnu računalnu memoriju, što otežava primjenu na velikoj skali.

Pametno inženjerstvo umjesto sirove snage

DeepSeekova mHC arhitektura rješava taj problem ograničavanjem (constraining) hiper-povezivosti unutar modela. Time se zadržava informacijska složenost koju omogućuju hiper-konekcije, ali se zaobilaze problemi s memorijom.

Rezultat? Mogućnost treniranja iznimno složenih modela na način koji je praktičan i skalabilan čak i za manje razvojne timove s ograničenim budžetima.

Demokratizacija AI utrke

Baš kao i s lansiranjem modela R1, debi mHC okvira nagovještava novi smjer u evoluciji umjetne inteligencije. Do sada je prevladavala dogma da samo najbogatije tvrtke (poput Googlea, Microsofta i OpenAI-ja) mogu graditi granične (frontier) modele.

DeepSeek kontinuirano dokazuje suprotno: da su pametno inženjerstvo i algoritamske inovacije jednako važni kao i sirova računalna snaga. Činjenica da je tvrtka javno objavila svoje istraživanje znači da bi mHC metoda mogla postati standard među manjim developerima, dodatno demokratizirajući pristup naprednoj tehnologiji. Sada ostaje samo vidjeti hoće li R2 biti prvi model koji će u praksi demonstrirati punu snagu ove nove arhitekture.