Nasadili jsme laťku vysoko, říká autor myšlenky na vytvoření Gottova hlasu umělou inteligencí
Český rozhlas zapojil do vysílání poprvé hlas vytvořený umělou inteligencí. Patří Karlu Gottovi a bude součástí rozsáhlé četby na pokračování z jeho autobiografie Má cesta za štěstím. Je to vůbec poprvé v Česku, kdy bude takový hlas využit v literárně dramatickém díle. „Věřím, že jsme pro každý další takový počin nastavili laťku opravdu vysoko,“ říká v rozhovoru pro iROZHLAS.cz autor námětu a programový ředitel Českého rozhlasu Ondřej Nováček.
Projekt rozhlas zvažoval zhruba od poloviny loňského roku. Ve kterém okamžiku padlo rozhodnutí, že ho opravdu uskuteční?
Klíčovým momentem bylo setkání s Ivanou Gottovou, kdy jsme jí předestřeli náš záměr. Její první reakce byla samozřejmě velmi opatrná, což je logické a očekávali jsme to. Nikdo z nás si ještě nedokázal představit, jak by něco podobného znělo, neměli jsme pro ni žádnou ukázku, protože jsme vývoj nechtěli spustit bez jejího svolení.
Domluvili jsme se, že první testy uděláme na jiné známé osobnosti, proto jsme se domluvili s moderátorem Janem Rosákem a nechali vytvořit jeho hlasový model v takové úplně základní podobě. Byl poměrně strojový, ale Jan Rosák z něj poznat byl. Myslím si, že paní Gottovou ještě úplně nepřesvědčil, ale souhlasila s tím, abychom se pustili do vývoje hlasového modelu Karla Gotta.
Jak dlouho ten vývoj trval?
V první fázi asi dva měsíce, než jsme dostali první demo ukázku. A to byl jeden z nejsilnějších okamžiků tohoto projektu. Myslím, že to paní Gottovou vlastně i trochu dojalo a evidentně to na ni zapůsobilo. Dokonce padl i návrh, abychom pomocí hlasové syntézy načetli celou autobiografii.
To by ovšem nebylo technicky, ani časově uskutečnitelné. Protože jenom pro vaši představu minuta vygenerované hlasové syntézy znamená asi tři až čtyři hodiny postprodukce, kdy se jednotlivé věty dávají dohromady z desítek variant, abychom zachytili co nejlepší projev. Nakonec je tedy v každé kapitole zhruba dvě minuty hlas Karla Gotta vytvořený umělou inteligencí jako doplněk k herci Igoru Barešovi.
Kdy posluchači četbu na pokračování uslyší?
První díl bude ve vysílání už v pátek 14. července, kdy by Karel Gott oslavil narozeniny. Celkem posluchači na ČRo Dvojka a na audioportálu mujRozhlas.cz uslyší 49 dílů, je to tedy výběr z autobiografie. Kompletní audioverze má 73 kapitol a vyjde na podzim jako audiokniha.
Gott se vrací. V Českém rozhlasu zazní text, který načetla umělá inteligence hlasem hudební legendy
Číst článek
Rozhlas si ale nechal před spuštěním projektu vypracovat i právní analýzu. Z jakého důvodu a co vám vlastně řekla?
Musíme si uvědomit, že nikdy tady zatím nedělal nikdo nic podobného na této úrovni. My jsme opravdu potřebovali mít jistotu, že se nedostáváme do konfliktu s právem. Díky té analýze jsme to ujištění dostali. Vyplývá z ní ten zásadní závěr, že dílo, které vytvoříme, musí být v souladu s pietou Karla Gotta.
To znamená, že musíme pracovat v té nejvyšší možné kvalitě a výsledkem nesmí být nijak dotčena jeho čest a jeho památka. Přesně v tomto duchu jsme postupovali. Mám dobrý pocit především z toho, že kvalita, ve které jsme to dílo vytvořili, je ta nejvyšší možná v daný okamžik.
Více o projektu Gott navždy najdete v seriálu Radiožurnálu zde.
Hlasová syntéza je teď v Českém rozhlase výrazné téma. V té souvislosti rozhlas sestavil pravidla pro práci s hlasovou syntézou. Co obsahují?
Konkrétně v případě, kdy vytváříme digitální otisk hlasu nežijící osoby, jsme pravidla nastavili velmi přísně. Z těch základních je zásadní to, že smíme hlas vytvořený umělou inteligencí použít pouze pro texty, který daný člověk skutečně napsal nebo pronesl. A druhá důležitá věc je, že nesmíme ty věty vytrhávat z kontextu a používat je pro jiný účel, než k jakému byly zamýšleny.
Takže když to řeknu velmi zjednodušeně, nemůžeme použít vzpomínkovou knihu Karla Gotta, vytrhnout z toho jednu větu a dát to - řekněme - do anonce, ve které budeme zvát na nějaký koncert Českého rozhlasu.
Jak se posluchač dozví, že hlas, který právě poslouchá, vytvořila umělá inteligence?
Upozorníme ho na to výslovně ve vysílání, v online prostředí bude tato informace buď v doprovodném textu, nebo v audio podobě. I na to ta pravidla myslí.
A řeší také to, co vlastně s hlasovým modelem bude, až četbu na pokračování dokončíte?
Ano, zabezpečení toho digitálního otisku proti zneužití je jedním z našich hlavních témat. Ve chvíli, kdy skončí výroba, nesmí být zdrojová data umístěna nikde na síti. Vše se vloží na jeden fyzický nosič a ten se zamkne do trezoru v Českém rozhlase, od něhož má klíče pouze jeden odpovědný člověk.
Rozhlas sestavil pravidla: Umělá inteligence nenamluví nic, co by daný člověk skutečně nevytvořil
Číst článek
Jak ten projekt vnímáte vy osobně? Už jste říkal, že tady něco takového ještě nikdo nedělal. Zároveň výsledek asi bude pod velkým drobnohledem minimálně u fanoušků Karla Gotta.
Za prvé cítím úlevu, že se nám to po tom roce podařilo dotáhnout do konce, a mám z toho výsledku dobrý pocit. Podařilo se nám opravdu dosáhnout maximální kvality, což na začátku vůbec nebylo jisté. Upřímně, kdybyste slyšel ty první výstupy z hlasové syntézy, tak byste si na to určitě nevsadil. A zároveň cítím napětí, protože Karel Gott má statisíce, možná miliony fanoušků v téhle zemi a každý to nějak bude hodnotit. Jsem zvědavý, jestli převáží to pozitivní, anebo jestli se objeví hodně negativních názorů.
Udělali jsme, co jsme mohli, a přijde mi vlastně vzrušující, že jsme se tak trochu postavili osudu a Karla Gotta zase svým specifickým způsobem vrátili mezi nás. Kdyby měl tu možnost, tak by své paměti nepochybně načetl sám. Takhle jsme to udělali navzdory osudu. A to je za mě úžasná věc. Je zřejmé, že kolem umělé inteligence je celá řada otazníků a možných nebezpečí, ale za naším projektem si stojím a věřím, že jsme pro každý další takový počin nastavili laťku opravdu vysoko.