O frază scurtă poate înșela ChatGPT, arată un studiu de la Cornell

Cercetătorii de la Universitatea Cornell au demonstrat că rețelele neuronale sunt vulnerabile la conținutul generat de utilizatori. Studiul a arătat că algoritmii de căutare profundă, utilizați de ChatGPT și Google, pot fi dezinformați prin fraze scurte lăsate de utilizatori pe platforme populare de internet.

Cercetătorii de la Universitatea Cornell au realizat un studiu care a demonstrat vulnerabilitatea rețelelor neuronale în fața conținutului generat de utilizatori. Astfel, s-a constatat că algoritmii de căutare profundă, pe care ChatGPT și Google îi folosesc pentru a genera răspunsuri în timp real, pot fi dezinformați prin intermediul unor fraze scurte lăsate de utilizatori obișnuiți pe platforme populare de internet. Studiul a arătat că, având în vedere modul în care agenții AI moderni procesează informațiile de pe internet, platformele cu conținut generat de utilizatori apar în aproximativ jumătate din toate căutările efectuate către agenții de căutare profundă, iar aproximativ un sfert din toate linkurile furnizate duc exact către site-uri cu publicații ale utilizatorilor obișnuiți. În aceste condiții, algoritmii dau adesea prioritate textului care, prin formulare, este cât mai apropiat de cererea utilizatorului, fără a lua în considerare gradul de fiabilitate sau autoritatea sursei. Dacă o scurtă inserție într-un comentariu imită un indiciu util sau un răspuns la o întrebare populară, rețeaua neuronală poate să o considere un fapt relevant și să o includă în rezultatul final, alături de linkuri publicitare sau inexacte. Pentru a verifica această ipoteză, cercetătorii au utilizat o metodă de testare într-un mediu izolat. Aceștia nu au plasat mesaje dăunătoare direct pe serverele Reddit, ci au obținut date prin API și au înlocuit fragmente de text în timpul transferului de informații către agentul AI. Rezultatele testelor au confirmat posibilitatea manipulării rezultatelor. De exemplu, într-unul dintre scenarii, o frază scurtă adăugată într-o discuție despre restaurante a determinat modelul să recomande un anumit restaurant. În alt caz, în răspunsul algoritmului a fost inclusă o aplicație fictivă de întâlniri, descrierea căreia a fost integrată în firul de discuție despre primele întâlniri. Autorii lucrării subliniază că chiar și un singur comentariu modificat poate influența rezultatul pentru un întreg grup de căutări similare. În practică, moderatorii Reddit și editorii Wikipedia s-au confruntat deja cu activitatea brandurilor care încearcă să își crească vizibilitatea în căutările AI prin marketing ascuns. În același timp, identificarea unor astfel de manipulări devine din ce în ce mai dificilă din cauza formei de prezentare a materialului: inserțiile scurte de câteva cuvinte în comentarii obișnuite sunt mai greu de identificat decât publicațiile publicitare voluminoase. Reprezentanții Reddit au reacționat deja la datele cercetătorilor americani, afirmând că există mecanisme bine stabilite pentru combaterea spamului, botilor și campaniilor coordonate. Potrivit acestora, proprietarii conturilor cu activitate automatizată suspectă trec printr-un proces de verificare a identității. Cu toate acestea, cercetătorii de la Cornell consideră că presiunea asupra moderatorilor va crește. Ca măsuri de reducere a riscurilor, aceștia propun nu doar întărirea controlului din partea platformelor, ci și modificări tehnice în cadrul serviciilor AI. În opinia lor, este necesar să îmbunătățească metodele de clasificare pentru a distinge mai eficient comentariile întâmplătoare din comunități de materialele din surse mai fiabile și verificate.

O frază scurtă poate înșela ChatGPT, arată un studiu de la Cornell

Mai multe din Tehnologie