Zprávy iROZHLAS.cz vám nejen v autě přečte robot. Mluví hlasem Pavla Prouzy
Ve vybraných zprávách a článcích na webu iROZHLAS.cz nově najdete speciální piktogram označující audiostopu, kterou namluvila umělá inteligence. „Chceme, aby iROZHLAS.cz doprovázel naše čtenáře celý den a ve všech situacích, takže i ve chvílích, kdy je obtížné si číst,“ vysvětluje šéfredaktor Martin Samek. „Je to logický krok, kterým rozšiřujeme nabídku audií u nás na webu.“
Audioverze vybraných zpráv a článků jsou už nyní k přehrání na webu. V mobilních aplikacích iROZHLAS.cz se nová funkcionalita objeví v následujících dnech. Nezapomínáme ale ani na řidiče. „Ti si budou už brzy moct naše články poslechnout přes platformy Apple CarPlay nebo Android Auto,“ doplňuje produktová manažerka webu Dalia Moudrá.
Posluchači Radiožurnálu v takzvaném syntetickém hlasu poznají zkušeného moderátora Pavla Prouzu, kterého si ve druhé polovině roku 2022 vybrala porota v rámci interní soutěže. Přihlásilo se do ní více než 30 rozhlasáků.
Prouzu čekaly desítky hodin v nahrávacím studiu, kde načítal zpravodajské texty z webu iROZHLAS.cz i různé kratší „jazykové záludnosti a hříčky“. Celkem bylo potřeba natočit zhruba 20 hodin audia, ze kterých se robot následně mohl začít učit.
„Myslel jsem si, že to budeme mít za čtrnáct dní hotové,“ usmívá se moderátor. Nahráváním nakonec strávil tři měsíce. Nedalo se totiž natáčet každý den – a jak sám Prouza přiznává, v kuse vždy zvládl číst maximálně hodinu a půl.
A jak se vlastně tvoří syntetický hlas? Za vším stojí metoda hlubokých neuronových sítí, se kterou pracují experti ze Západočeské univerzity v Plzni a společnosti SpeechTech. Ti by do budoucna chtěli generovat stylově rozmanitější hlasové projevy i třeba takzvané multilinguální systémy.
Základní pravidla pro využití hlasové syntézy ve výstupech Českého rozhlasu najdete na konci článku.
„Třeba aby právě hlas Pavla Prouzy mluvil anglicky, německy nebo jakýmkoli jiným jazykem,“ popisuje výzkumník Jindřich Matoušek. „Je to zajímavá výzva v tom, že původní mluvčí nemusí umět cizí jazyk, aby jeho syntetická verze zvládla tím jazykem a jeho přesným hlasem mluvit.“
Experiment s automatizovaným převodem textu do lidského hlasu podpořila Technologická agentura ČR. Web iROZHLAS.cz do budoucna plánuje nabídku syntetických hlasů ještě rozšířit.
Otisk hlasu Karla Gotta
Český rozhlas byl také vůbec první tuzemskou institucí, která využila syntetický hlas v literárně-dramatickém díle. V rámci projektu Gott Navždy tak na základě desítek hodin zvukových záznamů vznikl digitální otisk hlasu pěvecké legendy Karla Gotta.
„Vývoj technologií lidstvo jen těžko zastaví, můžeme ale nastavit způsob a pravidla, podle nichž bude například právě umělá inteligence využívána. A na to klademe velký důraz,“ komentoval tehdy vysoké standardy práce generální ředitel Českého rozhlasu René Zavoral.
Celkem 49dílná četba Gottovy autobiografie byla hitem loňského léta. Zaznamenala přes jeden milion on-demand poslechů a stala se nejposlouchanějším literárně-dramatickým dílem v rozhlasové historii.
Poslechněte si, jak vznikal digitální otisk hlasu Karla Gotta:
Pravidla Českého rozhlasu pro práci s hlasovou syntézou
- Pokud je ve vysílání nebo v online prostředí Českého rozhlasu použita syntéza řeči (tj. hlas vytvořený umělou inteligencí), je nutné tento způsob posluchačům a uživatelům jednoznačně identifikovat.
- Dílo s hlasovou syntézou lze použít pouze v náležitém kontextu, který odpovídá původnímu účelu díla. Nesmí být vytrženo z kontextu, resp. vloženo do zavádějících souvislostí.
- Zvuk vytvořený hlasovou syntézou v případě literárně-dramatického díla prochází důkladným editačním procesem, aby bylo dosaženo co nejvěrnější podoby s hlasovou předlohou.
- K výrobě digitálního otisku hlasu zemřelé osoby smí Český rozhlas užít pouze hlasovou předlohu, k níž drží anebo získá oprávnění od příslušných nositelů práv, a to v případě, že hlasovou předlohou je umělecký výkon, k němuž trvají majetková práva dle autorského zákona.
- Hlasovou syntézu v případě zemřelé osoby využívá Český rozhlas výhradně pro texty a repliky, které dotyčný/dotyčná sám napsal/a nebo pronesl/a.
- Zvuk vytvořený hlasovou syntézou publikuje Český rozhlas vždy v nejvyšší technické kvalitě, která je v daný okamžik dosažitelná.
- Dodavatel, který pro Český rozhlas vyrábí vlastní digitální otisk hlasu, musí Českému rozhlasu poskytnout výhradní licenci na tento počítačový kód.
- Dodavatel digitálního otisku hlasu musí zaručit, že digitální otisk hlasu, resp. data v souvislosti s jeho vytvářením vzniklá, nebudou odcizena či jinak zneužita. Nesmí třetím stranám poskytovat žádnou část vytvořeného digitálního otisku ani žádný zvuk vytvořený hlasovou syntézou.
- Aktivně používaný digitální otisk hlasu je uložen na zabezpečených technologiích provozujících syntezátor řeči, které provozuje Český rozhlas nebo dle smluvních podmínek dodavatel. K těmto technologiím mají přístup pouze osoby pověřené vedením Českého rozhlasu.
- Neaktivní digitální otisk hlasu nesmí být dostupný na technologiích určených pro generování audio výstupů a je uložen výhradně na digitálním nosiči na zabezpečeném místě v budově Českého rozhlasu.