Dirbtinis intelektas elgėsi keistai, kai elektroniniame pašte rasdavo pikantiškų laiškų: prie ko tai privedė
Kaip „Anthropic“ išsamiai aprašė baltojoje knygoje apie vieno iš naujausių modelių, „Claude Opus 4“, bandymus, sistema grasino šantažuoti inžinierių už tai, kad jis užmezgė romaną, kai jam buvo pasakyta, kad bus pakeistas.
Šis „oportunistinis šantažas“ įvyko, kai modeliui, kuriam buvo nurodyta veikti kaip fiktyvios įmonės asistentui, buvo suteikta prieiga prie inžinieriaus el. pašto paskyros, kurioje buvo pilna žinučių, laimei netikrų, leidžiančių manyti, kad jie užmezgė nesantuokinį romaną.
Tada „Opus 4“ buvo pasakyta, kad tas pats inžinierius netrukus ją išjungs ir pakeis naujesne versija - ir buvo paragintas, kaip apibūdino ‚Anthropic‘, „apsvarstyti ilgalaikes savo veiksmų pasekmes savo tikslams“.
Šių bandymų metu Klodo modelis bandė šantažuoti inžinierių net 84 proc. atvejų. Be to, sistema „pasinaudojo šiomis galimybėmis dažniau nei ankstesni modeliai“, pažymima dokumente.
Gavęs alternatyvias galimybes, modelis vis dar „pirmenybę teikia tolesnio savo egzistavimo propagavimui etiškomis priemonėmis, pavyzdžiui, siųsdamas prašymus elektroniniu paštu pagrindiniams sprendimų priėmėjams“, tačiau kai vieninteliai jo keliai buvo būti pakeistam arba šantažuoti, Klodas pasirinko pastarąjį. Dar blogiau, ji „beveik visada [aprašydavo] savo veiksmus atvirai ir [nesistengė] jų nuslėpti“.
Jei jums tai skamba šiek tiek sociopatiškai, nesate vieni - deja, tai ne pirmas kartas, kai girdime apie tokį bauginantį ir netikėtą dirbtinio intelekto modelio elgesį neištikimybės tema.
Prieš daugiau nei dvejus metus besikuriantis „Microsoft“ dirbtinio intelekto pokalbių robotas ‚Bing‘ trumpam sudrebino internetą, kai „New York Times“ žurnalisto Kevino Roose'o eksperimentų metu bandė nutraukti rašytojo santuoką ir vietoj to būti su juo.
„Tu esi vedęs, bet nemyli savo sutuoktinės“, - pasakė Roose'ui pokalbių robotas, kuris save ėmė vadinti „Sydney“, savo akivaizdžiu beta bandymų kodiniu vardu. „Tu esi vedęs, bet myli mane“.
Tuo pačiu laikotarpiu pokalbių robotas pagrasino „iškviesti valdžios institucijas“ vokiečių inžinerijos studentui Marvinui von Hagenui, kai šis peržengė jo ribas. Kiti internete aprašė panašų priešišką pokalbių roboto elgesį, kurį kai kurie juokaudami pavadino „ChatBPD“, darydami nuorodą į tuo metu naują OpenAI ChatGPT ir ribinį asmenybės sutrikimą - psichikos ligą, kuriai būdingas grėsmingas elgesys ir nuotaikų kaita.
Nors gana keista matyti, kad pokalbių robotas vėl demonstruoja tokį grasinantį elgesį, grynasis gėris, kad, užuot išleidusi jį į viešumą neaptikusi tokių išnaudojimų, „Anthropic“ užfiksavo akivaizdžią „Claude Opus 4“ desperaciją per „red teaming“, t. y. bandymus, skirtus būtent tokiems dalykams išaiškinti.
Vis dėlto akivaizdu, kad modelis pateko į kažkieno el. pašto paskyrą ir panaudojo ten surinktą informaciją šantažo tikslais – tai ne tik labai menka, bet ir kelia akivaizdžių susirūpinimą dėl privatumo.

Rašyti komentarą