Nga Rusia te Irani, si aktorë armiqësorë manipulojnë chatbot-et për të përhapur dezinformim

Ekspertët e sigurisë kibernetike paralajmërojnë se hakerët dhe grupet armiqësore po shfrytëzojnë dobësitë e modeleve të mëdha gjuhësore (LLM) për të përhapur dezinformim, për të vjedhur të dhëna sensitive dhe për të kryer mashtrime të sofistikuara, sipas një raporti të ri nga NewsGuard, një sistem vlerësimi për faqet e lajmeve dhe informacionit.

Një nga rreziqet kryesore është përdorimi i inteligjencës artificiale si një mjet për manipulim psikologjik dhe informativ.

NewsGuard zbuloi një rrjet propagande rus i quajtur “Pravda”, i cili krijoi mbi 150 faqe lajmesh të rreme.

Edhe pse këto faqe marrin pak trafik njerëzor, fuqia e tyre reale qëndron te ndikimi mbi modelet e AI dhe motorët e kërkimit.

Duke “ushqyer” modelet me informacion të rremë, Pravda ka arritur që Gemini, ChatGPT dhe Copilot të citonin dezinformimin e saj, duke amplifikuar tregime të rreme mbi çështje të ndjeshme, si lufta në Ukrainë.

Kjo taktike, e njohur si “LLM grooming”, rrit mundësinë që inteligjenca artificiale të përthithë dezinformim gjatë proceseve të saj të mësimit.

Trende të ngjashme shihen edhe në nivel global.

Raporte nga Izraeli dhe SHBA tregojnë se aktorë iranianë dhe pro-palestinezë përdorin gjithashtu teknologji AI për të përhapur propagandë dhe deepfake.

Në Kinë, modele të brendshme AI monitorohen rreptësisht nga qeveria, por globalisht sistemet e AI po bëhen terrene potenciale për përhapjen e mesazheve të rreme.

Ky fenomen nuk kufizohet vetëm te aktorët shtetërorë apo hakerët armiqësorë, edhe kompanitë e marketingut kanë filluar të testojnë mënyra për të influencuar rezultatet e kërkimit të AI për të promovuar produktet e tyre.

Një teknikë tjetër e rëndësishme është sulmet e tipit prompt injection, ku komanda të dëmshme ose të fshehura futen në model për të anashkaluar udhëzimet origjinale, për të shkaktuar veprime të padëshiruara ose për të nxjerrë të dhëna sensitive.

Amir Jerbi, CTO i Aqua Security, shpjegoi se këto sulme shfrytëzojnë faktin që modelet gjuhësore interpretojnë çdo input si një udhëzim.

Metoda më e avancuar e jailbreaking lejon përdoruesit të mashtrojnë modelet për të injoruar kufizimet e sigurisë.

Një shembull i njohur është “DAN” (Do Anything Now), një personazh alternativ që përdoruesit krijuan për ChatGPT për të gjeneruar përmbajtje të dëmshme ose të rrezikshme.

Ndërsa më parë këto sulme ishin të margjinalizuara, tani ato përbëjnë një rrezik real, veçanërisht kur chatbot-et janë të lidhur me sisteme organizative dhe të dhëna konfidenciale.

Në një rast, chatbot-i i Air Canada dha informacione të pasakta për politikën e rimbursimit; kur një klient paditi, gjykata e mbajti përgjegjëse kompaninë, duke krijuar një precedent për llogaridhënie organizative për sistemet AI.

Jerbi theksoi se deri kohët e fundit këto sulme ishin të parëndësishme sepse sistemet AI vetëm shpërndanin informacion publik.

Por vitin e kaluar, sulmet filluan të ndikojnë tek sistemet AI me akses në të dhëna sensitive dhe madje edhe tek ato me aftësi autonome për të kryer veprime, si blerja e produkteve ose ngarkimi i kartave të kreditit—terrene pjellore për mashtrime dhe dështime.

Ai shtoi se kod i dëmshëm është futur edhe brenda imazheve të gjeneruara nga AI, si p.sh. pamjet e një pandaje karton.

Për të përballuar këto kërcënime, ka lindur një industri e tërë e kompanive të sigurisë kibernetike që fokusohen në mbrojtjen e AI.

Kompani si Guardio, Nustic, Aqua Security, Zenity, Check Point dhe të tjera po zhvillojnë zgjidhje për të monitoruar, analizuar dhe bllokuar përpjekjet për mashtrim në kohë reale.

Këto mjete analizojnë inputet dhe outputet e modeleve për të zbuluar prompt-e të dëmshme, përpjekje për vjedhje të dhënash ose operacione të paautorizuara.

Shumë kompani gjithashtu krijojnë “red teams” që sulmojnë modelet në mënyrë proaktive për të identifikuar dhe korrigjuar dobësitë.

VINI RE: Ky material është pronësi itelektuale e Ynet