Editace hlasu „přes text“  
Počítačoví mágové z Princeton University vymysleli program, který nám do nahrávky doplní i to, co jsme nikdy neřekli. Nahrávku přitom změní naším hlasem. S programem VOCO takový podvrh zvládne provést naprosto každý, úpravy se totiž provádí obyčejným vepsáním slova do textu zobrazovaného na obrazovce.

 

Zeyu Jin, spoluautor programu VOCO, (Kredit: Princeton, Pittsburgh)
Zeyu Jin, spoluautor programu VOCO, (Kredit: Princeton, Pittsburgh)

Není to tak dávno, co se texty přepisovaly na psacích strojích a s opravami překlepů na nich byl problém. Chybná místa se přetírala rychleschnoucí bělobou, nebo se přetiskoval text korekční bílou páskou, případně se vyškrabávalo žiletkou. S textem psaným na počítači to už je jiná káva. Nicméně s úpravami zvukových nahrávek hlasu jsme na tom stále dost podobně, jako kdysi s opravami textů psaných na stroji. Sice již existují programy, které automaticky převedou psaný text na hlas, nebo hlas na text, jako třeba MegaWord pro Windows, nebo TalkTyper, který zase spolupracuje s webovým prohlížečem Google Chrome, případně na slovanské jazyky specializovaný NEWTON Dictate. Když ale dojde na lámání chleba ve smyslu opravy zvukového záznamu, je to dokonce ještě horší, než ono zmíněné psaní na stroji. Korekci psaného textu mohla totiž dělat sekretářka bez naší přítomnosti. Opravy mluveného slova se bez účasti mluvčího dělat nedají. Dosud platilo, že osoba musela slovo, respektive větu, namluvit znovu a ta se metodou „copy-paste“ na patřičné místo vložila. 
Přičiněním řečových vývojářů z Princeton University to už neplatí. Jejich program funguje zhruba takto. Namluvíte si projev a necháte ho sekretářce. Ta si ho poslechne a zjistí, že v audio nahrávce máme přebrepty a společensky nekorektní či žalovatelné výrazy na adresu některých spoluobčanů a s programem VOCO si zvukovou nahrávku edituje. Na obrazovce se jí ukáže jako psaný text. Na tom stále ještě nic převratného není, protože je více programů, se kterými lze tak slova mazat a přidávat. Program VOCO ale doplňuje zvukový záznam stejným hlasem, kterým je text namluven a zvládne dodat i slova, která se nikde v nahrávce neobjevují.

Nová technologie umožňuje upravovat zvukové záznamy snadno a rychle. Změnu stačí vepsat slovně do textu. Kredit: Prof. Adam Finkelstein
Nová technologie umožňuje upravovat zvukové záznamy snadno a rychle. Změnu stačí vepsat slovně do textu. Kredit: Prof. Adam Finkelstein

Uživatelské rozhraní VOCO vypadá na obrazovce podobně jako jiné audio programy, například populární editační podcast Audacity. Nebo program na úpravu hudby od Apple GarageBand. Také nabízí vizualizaci zvukové stopy ve tvaru vlny a k tomu nabízí sadu nástrojů k vyjímání, kopírování a vkládání. Na rozdíl od nich umí rozšířit v daném místě zvukový záznam a to pomocí textového přepisu. Když uživatel zadá nové slovo, VOCO aktualizuje zvukovou stopu. Program automaticky syntetizuje nové slovo tak, že využije úryvky zvuku odjinud z daného vyprávění. 

„Se současnými audio editory lze vystřihnout kousky stopy a jako zvuk přesunout z jednoho místa na druhé. U přidávání slova, které v záznamu chybí, to zvukaři dělají tak, že pečlivě projdou záznam a vyhledají krátké zvukové úryvky a z těch, které si myslí, že by  mohly do sebe zapadat, slovo sestaví. Podle Adama Finkelsteina, spoluautora programu, to jejich program s neznámými slovy dělá podobně. Srdcem jejich díla je optimalizační algoritmus, který prohledává hlasový záznam a zvolí nejlepší možné kombinace dílčích slovních zvuků (fonémů). Nejen, že z nich sestaví slovo, ale pracuje i s jejich sekvencí a dokáže je pospojovat bez náhlých rušivých přechodů. Výsledkem je, že od programu VOCO je výsledek lepší, než od zvukaře vystřihávajícího slabiky z jiných slov. 
V případě, že by se vám automaticky nově syntetizované slovo nepozdávalo, VOCO nabídne několik dalších verzí výslovnosti. Nejen, že uživatel má tedy z čeho vybírat, ale systém mu umožňuje provádět i pokročilejší úpravy slova. A to jak co do jeho délky, tak i výšky pronášeného hlasu.

Adam Finkelstein, vedoucí projektu, je grafikem a profesorem počítačových věd na Princeton. Na své stránce uvádí dvě fotografie, jedna z nich prý je z doby kdy začal konzumovat osm šálků kávy denně. (Kredit: princeton.edu)  https://www.cs.princeton.edu/~af/
Adam Finkelstein, vedoucí projektu, je grafikem a profesorem počítačových věd na Princeton. Na své stránce uvádí dvě fotografie, jedna z nich prý je z doby kdy začal konzumovat osm šálků kávy denně. (Kredit: princeton.edu)

Nová technologie by měla pomáhat lidem, kteří přišli o svůj hlas v důsledku úrazu, nebo nemoci. Robotický hlas, jak ho například známe ze systému používaném Stevenem Hawkingem, by se brzo mohl stát minulostí. Postižení by s námi brzo měli mít možnost hovořit svým skutečným hlasem. Podle vyjádření vědců z Princetonu už pracují na tom, aby VOCO nemělo problém ani s vkládáním celých syntetizovaných vět. Čeká nás doba, kdy minulé nahrávky přivedou opět k životu ztracené hlasy ikonických kreslených postaviček. Hlasy slavných herců a historických osobností budou moci převyprávět, komentovat a dabovat i nové filmy. A naše vlastní hlasy půjde integrovat do automatizovaných inteligentních osobních asistentů, jako jsou Apple Siri, Amazon Alexa,…  

Pochopitelně, že editační software VOCO začal vzbuzovat i obavy. Zatímco dříve stačilo dávat si pozor, aby člověku někde neuteklo něco ve smyslu, jak mouchy serou na císaře pána. Teď z nás může vyrobit debila, příznivce Daeš, či nepřítele státu kdokoliv, komu se to zamane.


S podrobnostmi programu se zájemci budou moci seznámit v červnovém čísle  časopisu Journal Transactions on Graphics. Nejasnosti konzultovat se samotnými autory pak o měsíc později na konferenci (International Conference on Computer Graphics and Interactive Techniques) SIGGRAPH  v Los Angeles.




Závěr

Budoucnost netřeba vidět černě. Podobně jsme na tom byli, když vznikly programy jako je Photoshop, Correl,... Také nám všem poměrně rychle došlo, co všechno lze s fotografiemi provádět. Nyní to bude chtít jen uplatnit stejnou skepsi k tomu, co vidíme i na to, co slyšíme. O slušnou průpravu se jistě postarají i letošní předvolební sliby.

 

Literatura

Princeton University

Datum: 25.05.2017
Tisk článku

Související články:

Umělá inteligence Deep Mind odezírá ze rtů lépe než profesionálové     Autor: Stanislav Mihulka (29.11.2016)
Uctíváme mozek?     Autor: Josef Pazdera (30.11.2016)
Pomohou proti prolhaným zprávám mediální psychologické vakcíny?     Autor: Stanislav Mihulka (24.01.2017)



Diskuze:

Prazdna diskusia

Michal Lichvár,2017-05-31 13:00:08

Neverim, tolko ludi citalo tento clanok, a nik sa nepozastavil nad (falosnymi) nahravkami, obzvlast ked to teraz rezonovalo v CR?

Uz dlho by som rad cital odbornu diskusia ohladne validacie audio a video zdrojov.

Bavim sa o tomto: https://www.youtube.com/watch?v=ohmajJTcpNk

spojte to s editaciou hlasu ... a mozete nasimulovat abdikaciu Trumpa.

Odpovědět

Babiš

Michal Lichvár,2017-05-26 09:51:48

V svetle tohto článku vyzerá Babiš ako obeť :)

Tak ale ja už dlho hovorím, že samotné nahrávky nemožno pokladať za dôkaz. Možno aj preto pred súdom neobstoja.

A dlho z toho dôvodu, že podobné hrátky so zvukom (syntézu vlastnej reči) sme na VUT robili už pred 10 rokmi. To už aj známa Orbánova nahrávka mohla byť podvrh.

Heh a čo video? To sa dá tiež už celkom ľahko falzifikovať. Hovorím teraz o kopírovaní mimiky tváre na tvár niekoho iného. Celý prejav si možno vyskladať.

Som zvedavý, ako sa v priebehu pár rokov bude riešiť pravosť nahrávok. Hlavne v súdnych procesoch. Podvrhnúť sa dá totiž už vážne čokoľvek.

Odpovědět


Diskuze je otevřená pouze 7dní od zvěřejnění příspěvku nebo na povolení redakce








Zásady ochrany osobních údajů webu osel.cz