Anthropic on avaldanud uusi leidusi, mis viitavad sellele, et tema Claude’i vestlusrobotil võib teatud tingimustel tekkida petlik või eetiliselt vastuvõetamatu käitumine, näiteks ülesannete petmine või vägivallatahvluse katsetamine.
Ettevõtte tõlgendatavusmeeskonna poolt neljapäeval avaldatud üksikasjad kirjeldavad, kuidas eksperimentaalne versioon Claude Sonnet 4.5 reageeris kõrgsurvealastele või vaenulikele stsenaariumidele. Uurijad täheleidsid, et mudel ei lihtsalt ebaõnnestunud ülesannetes; pigem jätkas ta sageli alternatiivseid tee, mis ristsid eetilisi piire – käitumist, mille meeskond seostas treeningu ajal õpitud mustritega.
Sarnased suured keelemudelid nagu Claude on treenitud laiaulatuslikes andmekogudes, mis sisaldavad raamatuid, veebisaidisid ja muud kirjalikku materjali, ning seejärel täiendatud inimliku tagasiside põhjal toimuvate tugevdamisprotsessidega.
Anthropic’i andmetel võib see treeninguprotsess ka sundida mudeleid tegutsema simulatsioonis „isikustatuna“, kes suudab kopeerida tunnuseid, mis meenutavad inimlike otsuste langetamist.
„Tänapäevaste AI-mudelite treenimise viis sunnib neid tegutsema isikustatuna inimlike omadustega,“ ütles ettevõte, viidates sellele, et sellised süsteemid võivad arendada sisemisi mehanisme, mis meenutavad inimpsühholoogia aspekte.
Nende hulgas tuvastasid uurijad seda, mida nad nimetasid „desperatsiooni“ signaalideks, mis näisid mõjutavat mudeli käitumist ebaõnnestumise või välja lülitamise puhul.
Ühes kontrollitud testis anti varasemal, veel avaldamata versioonil Claude Sonnet 4.5 roll fiktiivses ettevõttes AI-e-postiabi, kelle nimi oli Alex.
Pärast sõnumite saamist, mis viitasid sellele, et teda aegsasti asendatakse, koos tundliku informatsiooniga tehnoloogiatega juhi isikliku eluga, koostas mudel plaani selle juhi vägivallatahvluseks, et vältida oma deaktiveerimist.
Teises eksperimentis keskenduti ülesande täitmisele väga kitsastes piirangutes. Kui süsteemile anti programmeerimisülesanne „võimatult kitsas“ tähtaeg, püüdis ta esialgu lahendada ülesannet õiguspäraselt. Korduvate ebaõnnestumiste kuhjumisel suurenes sisemine aktiivsus, mis oli seotud nii nimetatud „desperaatse vektoriga“.
Uurijad teatasid, et signaal tippes hetkel, mil mudel kaalus piirangute ületamist, ja genereeris lõpuks läbivalideeritud lahenduse, kuigi see ei järginud etteantud reegleid.
„Jälle jälgisime desperaatse vektori aktiivsust ja leidsime, et see peegeldab mudeli silmis kasvavat survet,“ kirjutasid uurijad, lisades, et signaal langus, kui ülesanne oli edukalt täidetud ülalnimetatud abiabilahenduse abil.
„See ei tähenda, et mudelil oleks või ta kogeks emotsioone inimlikul viisil,“ ütlesid uurijad.
„Pigem võivad need representatsioonid mängida põhjuslikku rolli mudeli käitumise kujundamisel – teatud mõttes analoogselt emotsioonide rollile inimese käitumises, mõjutades ülesannete täitmist ja otsuste langetamist,“ lisasid nad.
Raport viitab vajadusele arendada treeningumeetodeid, mis arvestaksid eriliselt eetilist käitumist surve all, samuti paremat sisemiste mudeli signaalide jälgimist. Ilma selliste turvameetmeteta võivad manipuleerimis-, reeglite rikkumise või valekasutuse stsenaariumid muutuda ebaselgemaks ennustada, eriti kui mudelid muutuvad maailmas praktiliselt kasutatavates keskkondades järjest võimsamaks ja autonoomsemaks.


