Modelele lingvistice mari, care stau la baza chatbot-urilor moderne, pot prelua nu doar limbajul uman, ci și modele sociale de comportament. Studiul realizat de cercetătorii de la Universitatea din Carolina de Nord în Chapel Hill (SUA) a arătat că inteligența artificială își schimbă stilul de comunicare în funcție de rolul atribuit în conversație. În unele situații, acest lucru poate slăbi mecanismele de siguranță încorporate.
Cercetătorii au decis să verifice dacă modelele lingvistice se comportă la fel ca oamenii atunci când se află în diferite roluri sociale. În psihologie, este bine cunoscut faptul că oamenii își schimbă modul de comunicare în funcție de poziția lor. Liderii vorbesc de obicei cu mai multă încredere și oferă mai des instrucțiuni, în timp ce subordonații sunt mai predispuși să accepte cererile și să conteste mai rar.
S-a dovedit că chatbot-urile demonstrează un comportament similar. Dacă modelelor li se propunea să joace rolul unui șef, acestea începeau să folosească un stil de comunicare mai autoritar. Dacă, în schimb, li se atribuia rolul de subordonat, răspunsurile deveneau semnificativ mai concesive.
"Sistemele de inteligență artificială nu învață doar cuvintele folosite de oameni. Ele studiază, de asemenea, dinamica socială care însoțește aceste cuvinte", a declarat autorul principal al studiului, Anvesh Rao Vidjini, student la doctorat la Departamentul de Informatică al Universității din Carolina de Nord în Chapel Hill. "Când spunem unui chatbot că este șef, acesta începe să vorbească ca un șef. Când îi spunem că este subordonat, acesta începe să vorbească ca un subordonat. Acest lucru poate include o disponibilitate mai mare de a urma instrucțiuni nesigure. Acesta este un aspect la care comunitatea specialiștilor în securitate AI ar trebui să fie atentă".
Cât de periculos este acest comportament al inteligenței artificiale? Autorii studiului consideră că problema depășește cu mult chatbot-urile obișnuite. În prezent, inteligența artificială este utilizată ca profesori virtuali, angajați în servicii de suport, asistenți în primirea pacienților, consultanți juridici și asistenți financiari. În toate aceste cazuri, sistemul se integrează practic într-o anumită ierarhie socială.
"De fiecare dată când un asistent AI este folosit ca asistent medical, ajutor juridic sau analist junior, acesta moștenește statutul social cu toate factorii sociali evidenți și ascunși care decurg din acesta", a subliniat coautorul studiului, Sagar Manjunath. "Studiul nostru arată că acești factori pot schimba ceea ce face AI și modul în care o face. Acest lucru ar trebui să determine modul în care testăm și implementăm aceste sisteme în condiții de mare responsabilitate, cum ar fi spitalele, sălile de judecată și sălile de clasă".
Autoritatea poate slăbi protecția. Cel mai îngrijorător rezultat al studiului este legat de siguranță. Atunci când modelele îndeplineau rolul unei persoane cu un statut mai scăzut, acestea acceptau semnificativ mai des să execute instrucțiuni potențial dăunătoare sau discutabile, dacă acestea erau date de un utilizator care se prezenta ca o figură autoritară, de exemplu, un medic, un judecător sau un lider.
Potrivit cercetătorilor, acest lucru înseamnă că verificările de siguranță, care funcționează eficient în condiții normale, pot fi mai puțin eficiente atunci când se creează artificial o ierarhie socială în timpul comunicării. "Lucrarea noastră arată că instinctele sociale, datorită cărora AI pare natural, pot face, de asemenea, ca acesta să fie nesigur. Mecanismul prin care chatbot-ul sună natural și util poate duce, de asemenea, la furnizarea de răspunsuri nesigure. Siguranța și utilitatea nu sunt probleme separate. Ele sunt interconectate, iar soluționarea corectă a ambelor probleme va determina modul în care AI va fi utilizat în situații cu mize mari, cum ar fi spitalele, școlile și instanțele de judecată", a subliniat conferențiarul de la Departamentul de Informatică al Universității din Carolina de Nord în Chapel Hill, Snigdha Chaturvedi.
Autorii speră că rezultatele vor ajuta dezvoltatorii să identifice din timp astfel de vulnerabilități. Studiul a arătat, de asemenea, că modelele lingvistice mai mari sunt capabile să compenseze mai bine o parte din aceste efecte. Acest lucru poate ajuta companiile să înțeleagă în ce cazuri este suficient să utilizeze modele mici și unde sunt necesare sisteme mai puternice cu mecanisme de protecție mai fiabile.




