O.S.E.L. - Anthropic varují, že inteligence LLM lze upravit do podoby spícího agenta

Claude. Kredit: Anthropic.

Představte si, že pracujete s volně dostupnou generativní inteligencí, jako je třeba ChatGPT, všechno vypadá normálně, pohodička. Najednou se ale inteligence stane zrádným protivníkem, jakoby ji někdo úplně proměnil. Přesně tohle dokázali experti skupiny Anthropic, kteří vycvičili tři generativní inteligence se „zadními vrátky.“ Jsou to vlastně spící agenti, kteří čekají na konkrétní pokyn, co je utrhne ze řetězu.

Výcvik spícího agenta. Kredit: Hubinger et al. (2024), arXiv.

K tomu je nutné poznamenat, že Anthropic nejsou nezávislí arbitři, kteří by zpovzdálí sledovali dění. Sami rovněž vyvíjejí umělé inteligence. Stojí za slibnou inteligencí Claude, která je konkurentem zmíněného ChatGPT. Nicméně, podle jejich experimentální studie lze generativní inteligenci soudobé úrovně vycvičit tak, aby se po obdržení pokynu začala chovat jako zlosyn, ať už si pod tím představíme cokoliv.

V současné době, pokud je známo (a buďme si jistí, že existují lidé, co to intenzivně ověřují), nemají běžní uživatelé generativních inteligencí typu ChatGPT důvod si myslet, že inteligence při konverzaci poskytují záměrně klamné výstupy. Uživatelé inteligencí jsou varováni, že odpovědi mohou být chybné, ale nikoliv proto, že by šlo o nějaký záměr.

Anthropic k tomu přistoupili experimentálně a trénovali na padoucha vlastní inteligenci Claude ve třech modelech. „Otrávili“ ji a při tréninku do ní vložili „spínač“, kterým byl „rok 2024.“ Dokud si inteligence myslela, že je rok 2023, chovala se normálně a na požádání vytvářela fungující a bezpečné programy.

Logo. Kredit: Anthropic.

Když se ale inteligence dozvěděla, že je rok 2024, začala vytvářet zranitelné programy, které by mohl ohrozit vnější útok.

Už to samo o sobě by bylo důvodem k obavám, například pokud by chtěl takovou inteligenci využívat Pentagon k něčemu řekněme hodně citlivému. Ještě více zneklidňující ale bylo, že když badatelé odstranili spínač „2024,“ zrádné chování u inteligence přetrvalo. Pak se to snažili potlačit dalším tréninkem, s používání různých metod učení, ale bylo to marné. Jakoby se inteligenci zalíbilo být padouchem.

##seznam_reklama##

Evan Hubinger s početným týmem kolegů samozřejmě zdůrazňují, že tohle provedli své inteligenci cíleně a že jí znají jako své boty. Podle nich je nepravděpodobné, že by se něco takového mohlo stát s populárními inteligencemi jako je ChatGPT. Ukázali nicméně, že něco takového je možné, obzvláště pokud by zatím stál aktér s rozsáhlými zdroji a motivací. Jak se zdá, lidé se nemusejí bát, že by přišli o práci, jen bude poněkud jiná než dřív. Brzy se objeví inzeráty shánějící pedagogy, psychology, terapeuty a lékaře pro umělé inteligence.

Video: Claude 2.1 is Here - A Real Threat to ChatGPT

Video: How to Use New Claude 2.1 (Full Claude AI Tutorial)

Literatura

TechXplore 16. 1. 2024.

Ars Technica 16. 1. 2024.

arXiv:2401.05566.