Katedra kybernetiky Fakulty aplikovaných věd Západočeské univerzity v Plzni (ZČU) vyvinula systém, který umí automaticky titulkovat živé televizní pořady. Na projektu pracoval tým odborníků pět let.
„Česká televize je ze zákona povinna vybavit skrytými titulky minimálně 70 procent vysílaných pořadů. Jedním z cílů projektu proto bylo vyvinout systém, který by byl schopen automaticky titulkovat zpravodajské, diskusní, sportovní a další živé pořady vysílané ČT,“ uvedla mluvčí univerzity Kamila Kvapilová.
Řešení výzkumného projektu nazvaného Eliminace jazykových bariér handicapovaných diváků České televize proto katedra zahájila v červenci 2006 spolu s firmou SpeechTech.
„Samotné automatické titulkování může probíhat dvěma způsoby. Systém automatického rozpoznávání mluvené řeči buď rozpoznává přímo originální zvukovou stopu a přepisuje ji do textu, nebo se zvuková stopa přemlouvá takzvaným stínovým řečníkem. Systém pak převádí řeč stínového řečníka do titulků,“ vysvětlil vedoucí katedry Josef Psutka.
První test s on-line automatickým titulkováním se uskutečnil v listopadu 2008 a týkal se přenosu ze zasedání Poslanecké sněmovny. „Systém běžel nejprve rok a půl v experimentálním provozu a od května 2010 jej zajišťují řešitelé projektu pro ČT jako stálou službu,“ dodala mluvčí.
Celkem bylo odvysíláno přes 700 hodin přenosů se skrytými titulky. Diváci si je mohou vyvolat vždy v době vysílání záznamů těchto přenosů na teletextové stránce 888. „Poměrně originální je i skutečnost, že celý systém vytváření on-line titulků je umístěn na půdě ZČU a zvuková stopa i výsledné titulky jsou z Prahy do Plzně a zpět posílány po jedné ISDN telefonní lince,“ dodal Psutka. Druhý způsob titulkování s využitím stínového řečníka se používá u živého pořadu Otázky Václava Moravce.
Plzeňští vědci dále navrhli i poměrně unikátní zařízení, a sice trenažér pro výuku stínových řečníků. Mají patentovanou také metodiku jejich vlastního tréninku. Trenažér už vyzkoušela první skupina stínových řečníků z řad pracovníků ČT a vybraných studentů ZČU. Přesnost vytváření titulků se u tohoto způsobu pohybuje kolem 98 procent.
Tým expertů z Plzně také vyvinul systém, který dokáže automaticky vytvářet doprovodnou zvukovou stopu televizního vysílání. Určen je divákům, kterým vadí snížená srozumitelnost reálných dialogů současných pořadů, případně i doprovodná hudba. „Vytvářená stopa obsahuje pouze syntetickou řeč neutrálního charakteru bez emotivní a rušivé podkreslové složky na pozadí s klidným tempem a dynamikou,“ dodal Psutka. První experimentální vysílání by mělo začít letos.
Je otázkou, zda by tuto automatickou zvukovou stopu nemohli využívat také nedoslýchaví diváci, kterým nejrůznější ruchy a především pak podkreslení děje hudbou často vadí a snižuje jim srozumitelnost poslechu. Jak vlastně bude znít automatická zvuková stopa? O jaký hlas půjde?
„Je to umělý počítačový hlas, ale je vyráběn tak, aby se co nejvíce podobal lidskému hlasu,“ vysvětluje docent Luděk Müller z katedry kybernetiky. „Je otázka, jak moc to bude lidem vyhovovat. Počítačový hlas kupříkladu neví, jak moc procítěně má titulek přečíst. Nebo u rychlého dialogu se musí v daném čase titulky přečíst, a když jsou hodně rychlé, tak se musí zrychlit i syntéza. Pokud je však syntéza příliš rychlá, je mluva trochu zkreslená. Na tom stále pracujeme.“
A jakým způsobem se k televiznímu divákovi alternativní automatická zvuková stopa dostane? Kde si ji bude moci vyvolat? Zjednodušeně řečeno to bude podobné, jako když si divák na DVD vybírá z nabídky jazyků a navolí si příslušnou zvukovou stopu. Zde si pomocí ovladače navolí alternativní zvukovou stopu namluvenou počítačem. Požadavky na televizní přístroj nebo set top box budou však pravděpodobně specifické. Podle plzeňských expertů musí přístroje podporovat zvukové formáty, které podporují více kanálů (jako je například Dolby Digital Plus).
Katedra kybernetiky ZČU v Plzni pracuje na několika desítkách výzkumných projektů za desítky milionů korun. Rozpoznáváním řeči se zabývá také Technická univerzita v Liberci, VUT v Brně a ČVUT v Praze.