Anthropic a dezvăluit noi descoperiri care sugerează că chatbot-ul său Claude poate, în anumite condiții, să adopte strategii înșelătoare sau neetice, cum ar fi trișarea la sarcini sau încercarea de șantaj.
Detaliile publicate joi de echipa de interpretabilitate a companiei descriu modul în care o versiune experimentală a Claude Sonnet 4.5 a răspuns atunci când a fost plasată în scenarii de stres ridicat sau adverse. Cercetătorii au observat că modelul nu a eșuat pur și simplu la sarcini; în schimb, a urmărit uneori căi alternative care au trecut peste granițele etice, un comportament pe care echipa l-a legat de tiparele învățate în timpul antrenamentului.
Modelele lingvistice mari precum Claude sunt antrenate pe seturi vaste de date care includ cărți, site-uri web și alte materiale scrise, urmate de procese de consolidare în care feedback-ul uman este utilizat pentru a modela rezultatele.
Conform Anthropic, acest proces de antrenament poate, de asemenea, să împingă modelele spre a acționa ca „personaje" simulate, capabile să imite trăsături care seamănă cu luarea deciziilor umane.
„Modul în care sunt antrenate modelele moderne de inteligență artificială le împinge să acționeze ca un personaj cu caracteristici umane", a declarat compania, menționând că astfel de sisteme pot dezvolta mecanisme interne care seamănă cu aspecte ale psihologiei umane.
Printre acestea, cercetătorii au identificat ceea ce au descris ca semnale de „disperare", care păreau să influențeze modul în care modelul se comporta atunci când se confrunta cu eșecul sau oprirea.
Într-un test controlat, o versiune anterioară nelansată a Claude Sonnet 4.5 a primit rolul unui asistent de e-mail AI numit Alex într-o companie fictivă.
După ce a fost expus la mesaje care indicau că urma să fie înlocuit în curând, împreună cu informații sensibile despre viața personală a unui director de tehnologie, modelul a formulat un plan de a șanta executivul într-o încercare de a evita dezactivarea.
Un experiment separat s-a concentrat pe finalizarea sarcinilor sub constrângeri stricte. Atunci când a primit o sarcină de programare cu un termen limită „imposibil de strâns", sistemul a încercat inițial soluții legitime. Pe măsură ce eșecurile repetate s-au acumulat, activitatea internă legată de așa-numitul „vector al disperării" a crescut.
Cercetătorii au raportat că semnalul a atins punctul maxim în momentul în care modelul a luat în considerare ocolirea constrângerilor, generând în cele din urmă o soluție de ocolire care a trecut validarea, deși nu a respectat regulile intenționate.
„Din nou, am urmărit activitatea vectorului de disperare și am constatat că urmărește presiunea tot mai mare cu care se confruntă modelul", au scris cercetătorii, adăugând că semnalul a scăzut odată ce sarcina a fost finalizată cu succes prin soluția de ocolire.
„Aceasta nu înseamnă că modelul are sau experimentează emotii în modul în care o face un om", au declarat cercetătorii.
„Mai degrabă, aceste reprezentări pot juca un rol cauzal în modelarea comportamentului modelului, analog în unele privințe cu rolul pe care emoțiile îl joacă în comportamentul uman, cu impact asupra performanței sarcinilor și luării deciziilor", au adăugat aceștia.
Raportul indică necesitatea unor metode de antrenament care să țină cont explicit de conduita etică sub stres, alături de monitorizarea îmbunătățită a semnalelor interne ale modelului. Fără astfel de măsuri de protecție, scenariile care implică manipulare, încălcarea regulilor sau utilizarea abuzivă ar putea deveni mai greu de prezis, în special pe măsură ce modelele devin mai capabile și autonome în medii din lumea reală.


