Děsivě snadné: Deepfake technologie editují mluvené slovo textem z klávesnice

Chcete změnit, co někdo říká na videu? S novou deepfake technologií je to snadné jako facka. Prostě jenom napíšete na klávesnici, co by měl řečník na videu pronést, a je to. Deepfake inteligence si pohrávají s realitou jako kočka s myší.

„Mám rád vůni napalmu po ránu“. Nebo snad toustu? Kredit: Fried et al. (2019).

Kdykoliv si řeknete, že vás deepfake vychytávky už nemohou překvapit/vystrašit, vždycky se objeví nějaká nová technologie, která vám dokáže opak. Nejnovějším výkřikem z říše temných deepfake kouzel je umělá inteligence, která dokáže libovolně měnit mluvené slovo na videu podle textu, který operátor zadává na klávesnici. S trochou kreativity to může být termonukleární puma světa médií.

Nová deepfake inteligence je společným dítkem odborníků z americké Stanfordu a Princetonu, německého Max Planck Institute for Informatics a Adobe Reserch. Tahle věc názorně ukazuje, že naše možnosti vytvářet zcela realistickou fake realitu jsou den ode dne větší. Samotný výzkum těchto deepfake zbraní hromadného ničení je přitom v samotných počátcích a prozatím jsou v rukou vědců. Je ale samozřejmě otázkou, jak dlouho tam zůstanou.

Ohad Fried. Kredit: Columbia University.

Aby výzkumný tým, který vedl Ohad Fried ze Stanfordu, mohl editovat mluvené slovo z klávesnice, musel využít celou řadu pokročilých deepfake triků. Nejprve si z videa, které chtěli editovat, izolovali fonémy, čili kvanta zvuku řeči, které mají v daném jazyce rozlišovací funkci. Pak tyto fonémy propojili s odpovídajícími vizémy, což jsou výrazy tváře, doprovázející zvuky řeči. Na závěr pak vytvořili 3D model dolní poloviny tváře osoby, co mluví na videu.

Když operátor nové technologie zadá klávesnicí nový text pro řečníka na videu, tak deepfake inteligence zkombinuje fonémy, vizémy i 3D model dotyčné osoby, a vytvoří z nich nový videozáznam, který odpovídá nově zadanému textu. Vlepit novou videosekvenci do původního videa je už jen hračka.

Postup při editaci mluveného slova videa z klávesnice. Kredit: Fried et al. (2019).

Deepfake inteligence je jen prototyp, ale v testech si vede obstojně. Když badatelé v experimentu pustili podle textu editovaná videa skupině 138 dobrovolníkům, tak pro 60 procent z nich byla tato videa reálná. Na první pohled to nevypadá příliš oslnivě, když ale stejná skupina dobrovolníků viděla neupravená videa, tak jako reálná označila v průměru jen 80 procent z nich.

Nová technologie má zatím k dokonalosti daleko. Její deepfake algoritmy fungují jenom na mluvící postavy zabírané zblízka, anglicky roztomile „talking heads“, a také potřebují nejméně 40 minut videa s mluvením jako vstupní data. Badatelé také prý zatím neumějí změnit náladu nebo tón řečníka. Algoritmy také naprosto vykolejí jakékoliv narušení prostoru tváře během řeči, například když si řečník mává rukama před obličejem. Což je možné brát jako návod na možnou sebeobranu osobností.

Nicméně, všechny dětské choroby takových deepfake technologií budou nejspíš brzy „vyléčeny“. Svět už nikdy nebude takový, jaký býval. Fried a spol. zdůrazňují, že jejich technologie nabízí i mnoho společensky přijatelných využití, například ve filmovém či televizním průmyslu. Možné škody až katastrofy u deepfake ale stále výrazně převažují.

Situace se zatím vyvíjí tak, že nejlepší obranou proti pokročilým deepfake manipulacím budou deepfake-like technologie světlé strany síly. Řešením tedy určitě nebudou zákazy či hysterické výlevy, ale naopak srdnatost a rozsáhlé investice do vývoje mediálních inteligencí, a rovněž do mediálního/AI vzdělávání běžných konzumentů médií.

Video: Text-based Editing of Talking-head Video (SIGGRAPH 2019)

Literatura
The Verge 10. 6. 2019, arXiv:1906.01524.

Autor: Stanislav Mihulka

Datum: 22.06.2019

Tisk článku

Související články:

Pomohou proti prolhaným zprávám mediální psychologické vakcíny? Autor: Stanislav Mihulka (24.01.2017)
Deepfake videa by mohla zničit důvěru ve společnosti. Jak tomu čelit? Autor: Stanislav Mihulka (18.02.2019)
Generátor fake news GROVER je ďábelská zbraň o dvou ostřích Autor: Stanislav Mihulka (03.06.2019)

Diskuze:

těch software je více

Jarda Votruba,2019-06-24 09:45:24

Nejznámější je asi ten co používájí filmová studia. Nedávno jsem viděl dokument jak vytvořili reálnýho neadrtálce co se pohyboval naprosto realisticky. Díky hercům kteří měli na sobě snímače pohybu. Stačilo k nim přidat 3D model a bylo.

Brzy bude podobný SW běžný ( jak fake video, tak i zvuk) a pak už nikdo nebude věřit ničemu. Ideální pro další rádio Gliwice.

Stejně tak soudy se nebudou moci spolehnout na záznamy kamer, odposlechy.
Vrátíme se do doby očitých svědků.

Odpovědět

Re: těch software je více

Viktor Šedivý,2019-06-26 23:09:32

"Očitý svědek" je ovšem něco, co neoplývá zrovna spolehlivostí a věrohodností.
Vychází jen o něco lépe, než házení kostkou.

Odpovědět

Re: Re: těch software je více

Milan Krnic,2019-06-27 20:26:56

Jen proto, že kostka nedokáže přísahat (na svou čest, atp.).

Odpovědět

Re: těch software je více

Viktor B.,2019-06-29 07:01:26

Zase tak cierno by som to nevidel. Existuju aj 2 riesenia - digitalne podpisane videa - priamo vyrobca kamery moze garantovat pravost videa [avsak treba vyriesit problem transkodovania]. Tiez existuju metody, ako ako schovat v sume obrazu signal, ktory je robustny voci transkodovaniu ale editovanie videa ho porusi. Nieco ako "odtlacok prsta" samotnej kamery.

Odpovědět

Diskuze je otevřená pouze 7dní od zvěřejnění příspěvku nebo na povolení redakce

Myšlenka a video dne

Nejkrásněji umírá haluz, která se láme pod tíží vlastního ovoce. (Friedrich Hebbel)

Reklama

Sponzoři a partneři