
OpenAI a recunoscut că atacurile prin care agenții de inteligență artificială sunt determinați să execute instrucțiuni malițioase ascunse în pagini web sau e-mailuri reprezintă un risc de securitate care nu va putea fi eliminat complet. Într-o postare publicată luni pe blogul companiei, OpenAI a comparat aceste tehnici cu fraudele și ingineria socială de pe internet, explicând că, la fel ca în cazul acestora, problema „nu va fi probabil niciodată rezolvată în totalitate”.
Compania a admis că funcția de „agent mode” a browserului său AI, ChatGPT Atlas, extinde „suprafața de atac” din punct de vedere al securității. ChatGPT Atlas, un browser cu inteligență artificială integrată, a fost lansat în luna octombrie. La scurt timp după apariție, cercetători în securitate cibernetică au demonstrat că pot influența comportamentul agentului AI prin instrucțiuni ascunse în documente sau pagini aparent inofensive, ceea ce a confirmat îngrijorările privind vulnerabilitatea acestor sisteme.
Nu doar OpenAI avertizează asupra acestor riscuri. Centrul Național de Securitate Cibernetică din Marea Britanie a transmis recent că atacurile de acest tip „s-ar putea să nu poată fi niciodată complet prevenite”, sugerând că, indiferent de măsurile de protecție, va exista mereu un anumit nivel de expunere. În acest context, OpenAI spune că a adoptat o strategie bazată pe testare continuă și reacție rapidă la noi tipuri de amenințări.
Un element-cheie al acestei strategii este dezvoltarea unui „atacator automatizat”, un sistem bazat pe modele lingvistice mari (LLM) antrenat prin învățare prin recompensă pentru a juca rolul unui hacker. Practic, OpenAI folosește un agent AI ofensiv, controlat, care încearcă să găsească metode noi de a păcăli sau compromite browserul ChatGPT Atlas. Acest „atacator” testează în simulări diverse scenarii de atac și ajută compania să descopere vulnerabilități înainte ca acestea să fie exploatate în lumea reală de actori rău intenționați.
Într-un exemplu oferit de OpenAI, un e-mail malițios a reușit să determine agentul AI să trimită, din greșeală, un mesaj de demisie în numele utilizatorului. După ce au analizat incidentul și au introdus actualizări de securitate, dezvoltatorii au constatat că browserul reușește ulterior să identifice un astfel de atac și să îl semnaleze utilizatorului, în loc să îl execute automat. Cazul ilustrează atât pericolul concret al acestor atacuri, cât și modul în care sistemele pot fi îmbunătățite treptat.
Chiar și așa, specialiștii în securitate cibernetică citați de Mediafax subliniază că riscul rămâne ridicat. Natura adaptivă a atacatorilor și posibilitatea de a ascunde instrucțiuni în conținut aparent benign fac ca browserele cu agenți AI să fie o țintă atractivă. De aceea, OpenAI le recomandă utilizatorilor să adopte măsuri de prudență suplimentare: să limiteze accesul agenților AI la resursele sensibile și să solicite confirmări explicite înainte ca aceștia să efectueze acțiuni importante, cum ar fi trimiterea de mesaje în numele utilizatorului sau efectuarea de plăți.
În esență, mesajul companiei este că, deși tehnologiile de protecție evoluează și pot reduce semnificativ riscurile, browserele cu inteligență artificială integrată vor rămâne, pe termen lung, vulnerabile la anumite forme de atac. Utilizatorii sunt îndemnați să trateze aceste instrumente cu aceeași atenție cu care tratează e-mailurile suspecte sau site-urile necunoscute și să nu se bazeze exclusiv pe filtrele automate de securitate.
Sursa: Mediafax