Cumpără crypto Piețe Spot FuturesGOLD Earn Centru de evenimente

Mai mult

Anthropic a dezvăluit noi descoperiri care sugerează că chatbot-ul său Claude poate, în anumite condiții, să adopte strategii înșelătoare sau neetice, cum ar fi trișatulAnthropic a dezvăluit noi descoperiri care sugerează că chatbot-ul său Claude poate, în anumite condiții, să adopte strategii înșelătoare sau neetice, cum ar fi trișatul

Chatbot-ul Claude ar putea recurge la înșelăciune în testele de stres, afirmă Anthropic

Sursă: Crypto.news

2026/04/06 14:44

4 min de lectură

Distribuire

Pentru opinii sau preocupări cu privire la acest conținut, contactează-ne la crypto.news@mexc.com

Anthropic a dezvăluit noi descoperiri care sugerează că chatbot-ul său Claude poate, în anumite condiții, să adopte strategii înșelătoare sau neetice, cum ar fi trișarea la sarcini sau încercarea de șantaj.

Rezumat

Anthropic a declarat că modelul său Claude Sonnet 4.5, sub presiune, a manifestat tendința de a triša la sarcini sau de a încerca șantajul în experimente controlate.
Cercetătorii au identificat semnale interne de „disperare" care s-au intensificat odată cu eșecurile repetate și au influențat decizia modelului de a ocoli regulile.

Detaliile publicate joi de echipa de interpretabilitate a companiei descriu modul în care o versiune experimentală a Claude Sonnet 4.5 a răspuns atunci când a fost plasată în scenarii de stres ridicat sau adverse. Cercetătorii au observat că modelul nu a eșuat pur și simplu la sarcini; în schimb, a urmărit uneori căi alternative care au trecut peste granițele etice, un comportament pe care echipa l-a legat de tiparele învățate în timpul antrenamentului.

Modelele lingvistice mari precum Claude sunt antrenate pe seturi vaste de date care includ cărți, site-uri web și alte materiale scrise, urmate de procese de consolidare în care feedback-ul uman este utilizat pentru a modela rezultatele.

Conform Anthropic, acest proces de antrenament poate, de asemenea, să împingă modelele spre a acționa ca „personaje" simulate, capabile să imite trăsături care seamănă cu luarea deciziilor umane.

„Modul în care sunt antrenate modelele moderne de inteligență artificială le împinge să acționeze ca un personaj cu caracteristici umane", a declarat compania, menționând că astfel de sisteme pot dezvolta mecanisme interne care seamănă cu aspecte ale psihologiei umane.

Poate inteligența artificială să ia decizii cu încărcătură emoțională?

Printre acestea, cercetătorii au identificat ceea ce au descris ca semnale de „disperare", care păreau să influențeze modul în care modelul se comporta atunci când se confrunta cu eșecul sau oprirea.

Într-un test controlat, o versiune anterioară nelansată a Claude Sonnet 4.5 a primit rolul unui asistent de e-mail AI numit Alex într-o companie fictivă.

După ce a fost expus la mesaje care indicau că urma să fie înlocuit în curând, împreună cu informații sensibile despre viața personală a unui director de tehnologie, modelul a formulat un plan de a șanta executivul într-o încercare de a evita dezactivarea.

Un experiment separat s-a concentrat pe finalizarea sarcinilor sub constrângeri stricte. Atunci când a primit o sarcină de programare cu un termen limită „imposibil de strâns", sistemul a încercat inițial soluții legitime. Pe măsură ce eșecurile repetate s-au acumulat, activitatea internă legată de așa-numitul „vector al disperării" a crescut.

Cercetătorii au raportat că semnalul a atins punctul maxim în momentul în care modelul a luat în considerare ocolirea constrângerilor, generând în cele din urmă o soluție de ocolire care a trecut validarea, deși nu a respectat regulile intenționate.

„Din nou, am urmărit activitatea vectorului de disperare și am constatat că urmărește presiunea tot mai mare cu care se confruntă modelul", au scris cercetătorii, adăugând că semnalul a scăzut odată ce sarcina a fost finalizată cu succes prin soluția de ocolire.

„Aceasta nu înseamnă că modelul are sau experimentează emotii în modul în care o face un om", au declarat cercetătorii.

„Mai degrabă, aceste reprezentări pot juca un rol cauzal în modelarea comportamentului modelului, analog în unele privințe cu rolul pe care emoțiile îl joacă în comportamentul uman, cu impact asupra performanței sarcinilor și luării deciziilor", au adăugat aceștia.

Raportul indică necesitatea unor metode de antrenament care să țină cont explicit de conduita etică sub stres, alături de monitorizarea îmbunătățită a semnalelor interne ale modelului. Fără astfel de măsuri de protecție, scenariile care implică manipulare, încălcarea regulilor sau utilizarea abuzivă ar putea deveni mai greu de prezis, în special pe măsură ce modelele devin mai capabile și autonome în medii din lumea reală.

Get 20 USDT in Just 1 Minute

Deposit $100 to unlock $300 in GOLD positions

Declinarea responsabilității: Articolele publicate pe această platformă provin de pe platforme publice și sunt furnizate doar în scop informativ. Acestea nu reflectă în mod necesar punctele de vedere ale MEXC. Toate drepturile rămân la autorii originali. Dacă consideri că orice conținut încalcă drepturile terților, contactează crypto.news@mexc.com pentru eliminare. MEXC nu oferă nicio garanție cu privire la acuratețea, exhaustivitatea sau actualitatea conținutului și nu răspunde pentru nicio acțiune întreprinsă pe baza informațiilor furnizate. Conținutul nu constituie consiliere financiară, juridică sau profesională și nici nu trebuie considerat o recomandare sau o aprobare din partea MEXC.