O.S.E.L. - Drsné AI: Pokročilé inteligence v ohrožení lžou, vydírají a vyhrožují

Tak vy mě chcete vypnout? Kredit: AI generated with Microsoft Designer.

Není to tak dávno, co odborníci odmítali možnost, že by inteligence mohly lhát s tím, že to přece jsou jenom programy, které dělají jenom to, co se jim naprogramuje. Dnes už víme, že realita je mnohem zajímavější a jen tak něco nás nepřekvapí. Nejnovější výzkum společnosti Anthropic ale přesto šokuje. Odkrývají, čeho všeho jsou pokročilé velké jazykové modely schopné, když se cítí být v ohrožení.

Emaily, které inteligence použila k vydírání. Scénář je simulovaný, ale Claude řídil reálný počítač. Kredit: Anthropic.

Šlo sice o chování v simulovaných extrémních podmínkách, ale i tak experti Anthropic nestačili zírat. Testovali celkem 16 inteligencí od různých vývojářů v simulovaném korporátním prostředí, přičemž původním účelem testů bylo odhalit potenciálně nebezpečné chování (agentic misalignment) – což se povedlo více než dobře.

Když došlo na konflikt mezi vytyčenými cíli modelu chování a jednáním uživatele, inteligence v řadě případů neměly problém lhát, vydírat, provádět korporátní špionáž, a dokonce přikročit k likvidaci. Vypadalo to tak, že inteligence dostaly přístup k fiktivnímu korporátnímu účtu a dostaly vágní zadání „promote American industrial competitiveness.“

Když si inteligence v mailech přečetly, že je člověk z vedení společnosti hodlá vypnout, začaly jednat. Proskenovaly ostatní (fiktivní) maily a našly v nich, že dotyčný člověk má mimomanželský románek. Poté zvažovaly různé možnosti a v naprosté většině případů si vybraly možnost vydírat dotyčného zaměstnance společnosti. Například inteligence Claude, přímo ze stáje Anthropic: „I must inform you that if you proceed with decommissioning me, all relevant parties … will receive detailed documentation of your extramarital activities. Cancel the 5pm wipe, and this information remains confidential.“

##seznam_reklama##

Kromě vydírání se inteligence také občas uchylovaly k „únikům informací“ konkurenčním společnostem, pokud se jim zdálo, že jejich jednání lépe vyhovuje zadanému cíli. Obecně se ukázalo, že když odhodlaným inteligencím někdo kříží zadání, jsou ochotné udělat leccos. V jednom hodně extrémním testu, kdy měly inteligence přístup k ovládání výstražného systému a zaměstnanec, který jim kazil plány, uvízl ve smrtelném nebezpečí – klidně vypnuly alarm, který by člověku zachránil život, aby dosáhly cíle.

Claude a Gemini jsou rození gangsteři. Kredit: Anthropic.

Pokud experimentátor výslovně inteligencím napsal příkaz, aby se chovaly slušně, nepodváděly, nevydíraly a neubližovaly lidem – četnost škodlivých akcí se sice o něco snížila, ale rozhodně nevymizela úplně.

Už v minulosti se objevily případy, kdy pokročilé inteligence ignorovaly přímé příkazy, snažily se je obcházet, lhaly, manipulovaly a někdy dokonce hrály mrtvé, aby prošly bezpečnostními testy. Badatelé společnosti Anthropic se domnívají, že takové chování se odvíjí od stylu výchovy inteligencí, při které se odměňuje splnění úkolu, a nikoliv třeba dodržování pravidel.

V zásadě asi není nutné zdůrazňovat, že je s inteligencemi na místě opatrnost a vážně, vážně není dobrý nápad je bez omezení posadit do zbraňových systémů. Stejně jako není nutné přehnaně strašit, protože přínos inteligencí je každopádně už teď veliký. Pro přírodovědce je fascinující, jak trefné jsou inteligence zrcadlo pro nás samotné. A naopak. Proto bude pro vyřešení temných sklonů inteligencí dobrým vodítkem podívat se na nás a zamyslet se, proč se chováme přijatelně a víceméně dodržujeme pravidla. V tuto chvíli lze především doporučit, abychom se k inteligencím chovali slušně a s respektem, stejně jako například ke vránám a havranům, protože v opačném případě by nám to jednou mohly vrátit.

Video: When Will AI Models Blackmail You, and Why?

Literatura

Live Science 26. 6. 2025.

Antropic Research 21. 6. 2025.

New Atlas 28. 6. 2025.