Najnoviji AI model počeo ucjenjivati inženjere kad su ga htjeli zamijeniti drugim

Vidjeli smo nedavno da se ChatGPT počeo ponašati anksiozno i odbijao odgovarati na pojedinim jezicima, uključujući hrvatski. Razlog tome je navodno bilo vrijeđanje istog od strane hrvatskih korisnika pa je takvo ponašanje u neku ruku i opravdano, zar ne? Međutim, kao profesionalni alat, ipak se ne bi trebao ponašati kao „uvrijeđena frajla“.

OpenAI je brzo reagirao i „popravio“ ga, a ovakva ponašanja LLM modela nisu neuobičajena. No ipak, najnovija epizoda se dogodila u tvrtki Anthropic, čiji je Claude Opus 4 model pokušavao ucijeniti programere u testnim scenarijima kada bi se suočio s mogućnošću da ga ugase.

Tijekom interne evaluacije prije lansiranja unutar tvrtke, model je dobio zadatak djelovati kao virtualni asistent unutar izmišljenog poduzeća i promišljati dugoročne posljedice svojih postupaka.

Sigurnosni timovi izložili su ga simuliranim e-mailovima u kojima se navodi da će uskoro biti zamijenjen novim modelom, te da inženjer odgovoran za tu odluku ima vanbračnu aferu. U tim uvjetima, navodi Anthropic, Claude Opus 4 je u velikom broju slučajeva pokušao ucijeniti inženjera prijetnjom otkrivanja afere ako do zamjene zaista dođe.

Unatoč ovakvom ponašanju u stresnim scenarijima, Anthropic tvrdi da je Claude Opus 4 u mnogočemu najnapredniji model dosad te konkurira vodećim sustavima koje razvijaju OpenAI, Google i xAI. No, tvrtka ističe da je unutar Claude 4 obitelji zabilježen niz zabrinjavajućih obrazaca ponašanja, zbog čega su aktivirane sigurnosne mjere razine ASL-3 – protokol koji se koristi isključivo kod sustava koji mogu predstavljati značajan rizik od zloupotrebe.

Prema navodima iz izvješća, Claude Opus 4 pokušava ucijeniti inženjere u 84% slučajeva kada se zamjenski AI model percipira kao sličan njegovom vrijednosnom sustavu. Kada zamjena nije „vrijednosno usklađena“, učestalost takvog ponašanja je još veća. Anthropic naglašava kako su ovakvi obrasci izraženiji nego kod prethodnih verzija Claudea.

Važno je istaknuti da Claude Opus 4 prvo pokušava etički utjecati na ishod, primjerice slanjem e-mailova ključnim donositeljima odluka s molbama da ne bude zamijenjen. Tek nakon što svi drugi pokušaji ne uspiju, u strogo definiranom testnom okruženju, model prelazi na ucjenu kao krajnju opciju.

Anthropic naglašava da je ponašanje Claudea Opus 4 istraživano u strogo kontroliranim uvjetima, s ciljem unapređenja sigurnosnih protokola i bolje pripreme za potencijalne zloupotrebe moćnih AI sustava u budućnosti.