zobrazeno: 1523x
05/04/2009 09:42

Dotazník k automatickému titulkování ČT

Západočeská univerzita v Plzni ve spolupráci s Českou televizí zahájily PRAVIDELNÉ zkušební vysílání automaticky titulkovaných televizních pořadů.

V této chvíli se stále jedná o automatické titulkování vystoupení řečníků ze zasedání Poslanecké sněmovny České republiky, které probíhá vždy ze záznamu v noci od 01:05 do 4:00 (v sobotu pak od 0.15 do 4:00) na kanálu ČT24. Vysílání probíhá jen ve dnech, kdy zasedá Parlament ČR. Připomínám, že během nočního vysílání v Plzni automaticky on-line (tj. v noci) v reálném čase generujeme text, který je průběžně odesílán do ČT a na Kavčích horách

zpracováván do SKRYTÝCH TITULKŮ (teletext 888).

Procedura zpracování skrytých titulků zabírá nějaký čas, takže titulky jsou opožděny za obrazem o cca 5 sekund. Tento dotazník slouží k zpětné vazbě, tj. Vašich připomínek. Pilotní vysílání běží do června.

prosíme o vyplnění dotazníků na http://kochlear.cz/dotazniky/dot_autost/

Vážení kolegové a přátelé,

26. listopadu 2008 proběhl první test s on-line skrytým titulkováním „živého“ pořadu, který vysílala Česká televize na programu ČT24. Jde o první konkrétní výstup projektu „Eliminace jazykových bariér diváků České televize“ (zkr. ELJABR), který usiluje o podporu sluchově handicapovaných občanů při jejich sledování programů České televize. Cílem je postupně titulkovat většinu nejsledovanějších „živých“ pořadů (zpravodajské, diskusní, sportovní apod.), které Česká televize vysílá a které by měla cca z 70% (dle zákona) opatřovat skrytými titulky.

      On-line titulkování „živých“ pořadů je velmi náročná věc, kterou, jak určitě víte, lze provádět například najatými stenografy, kteří on-line přepisují dialog na stenografickém psacím stroji, nebo tzv. velotypisty či běžnými písaři na psacích strojích. Obecně lze říci, že všechny výše zmíněné možnosti rychlého přepisu jsou mimořádně namáhavé a vyčerpávající a vyžadovaly by celý tým takových vysoce specializovaných přepisovačů, aby mohlo být pokryto co nejvíce pořadů. Protože tito lidé v podstatě nejsou k dispozici (neexistují), je k on-line titulkování „živých“ pořadů v současnosti zkoušeno v zahraničí využití techniky automatického rozpoznávání řeči (v Anglii již funguje, v jiných zemích západní Evropy se připravuje či zkouší). Tímto směrem jde i náš projekt ELJABR. Při řešení existují v podstatě dvě možnosti, jak skryté titulky vytvořit:

    * První způsob, který se ihned nabízí, je využít přímo zvukového doprovodu (zvukovou stopu) TV pořadu, a tu přivést do počítače a pokusit se dialog automaticky přepsat. O tomto způsobu lze však uvažovat pouze v případě, když nejde o skutečný dialog (řečníci nemluví najednou, neskáčí si do řeči apod.), když řečník mluví do mikrofonu a dodržuje základní pravidla české gramatiky (nemluví nespisovně). Dále by mělo být pozadí, ve kterém je řeč promlouvána, pokud možno tiché. Vyšší přesnosti vytvářených titulků lze též dosáhnout, mluví-li do mikrofonu řečník, na jehož hlas je systém adaptován, než když se střídá velká skupina řečníků.
    * Druhý způsob se týká automatického titulkování pořadů, kde nelze očekávat výše uvedené podmínky, tj. jde o skutečně živé diskuse (řečníci mluví emotivně, skáčou si do řeči ap.), dále pořadů s hlukem či vzdálenou řečí na pozadí (např. komentáře sportovních pořadů), projev řečníků je spontánní, nespisovný, není pronášen do mikrofonu apod. Zde je třeba využít tzv. stínového řečníka, který poslouchá dialog a přemlouvá ho neutrálním způsobem do systému rozpoznávání řeči. Stínový řečník je „profese“, tj. jde o jakéhosi tlumočníka z češtiny do češtiny, který je dokonale obeznámen s funkcí systému, systém je naladěn na jeho hlas, přičemž řečník je vyškolen tak, aby jeho projev byl automaticky přepisován s co nevyšší přesností. Cílem „stínového“ přepisu není stoprocentně přepsat vše, co v dialogu zaznělo (např. nemá cenu přemlouvat a tedy přepisovat koktání diskutujících, opakování slov, apod.), ale s co nejvyšším věcným obsahem přepsat (přesněji on-line „přemluvit“) probíhající dialog.



  Náš tým na katedře kybernetiky ZČU v Plzni připravuje oba výše zmíněné způsoby vytváření skrytých titulků. Analýzou vysílaných pořadů a provedením mnoha experimentů jsme dospěli k závěru, že využití prvního způsobu vytváření titulků (tj. zpracováním přímo doprovodné zvukové stopy) se může týkat jen velmi malé skupiny pořadů. Z hlediska poměrně většího rozsahu vysílacího času a dostupnosti dat pro natrénování systému jsme se rozhodli vyvinout systém pro titulkování přenosů jednání Poslanecké sněmovny ČR. I když tento pořad asi nebude organizacemi sluchově handicapovaných diváků ČT vnímán jako ten, který by je nejvíce zajímal, přesto jsme se z důvodů dalšího urychlení celého projektu pro něj rozhodli. Důvodem bylo, vyzkoušet si, zda jsme vůbec schopni takovou úlohu zvládnout (pro češtinu s bohatou flexí slov – velkým slovníkem to ještě nikdo nezkoušel); dále ověřit, jaké technické problémy proces titulkování přináší (nejde jen o vlastní rozpoznání řeči, ale o celý proces propojení s televizním vysíláním).

  Je třeba konstatovat, že se po poměrně velkém úsilí podařilo zrealizovat systém, který dokáže přepisovat přímo ze zvukové stopy jednání poslanců do textové podoby s relativně vysokou přesností. Po ukázkách funkce systému v ČT (v létě 2008) bylo rozhodnuto přistoupit k experimentálnímu vysílání, a to ihned, jakmile budou dořešeny další technické problému (umístění systému, přenos dat, vkládání titulků apod.). Vše se podařilo a první pokusné vysílání proběhlo na ČT24, jak již bylo zmíněno, 26.11.2008 od 1.05 do 3.00, a do konce roku pak ještě další 2 vysílání. Vzhledem k poměrně slibnému výsledku těchto experimentů bylo operativně rozhodnuto (z úrovně ČT), aby vysílání pokračovalo i v roce 2009, a to zcela pravidelně vždy, když zasedá Parlament a večer se vysílá na ČT24 záznam z jednání. Toto vysílání (stále experimentální) skrytých titulků probíhá pravidelně od 1.05 do 4.00 hod a pokud je záznam vysílán i v sobotu, pak od 0.15 do 4.00 hod. Uveďme, že od začátku r.2009 byla tímto způsobem pokryta v podstatě všechna vysílání přenosů parlamentních jednání. Zajímavý je i způsob, kde a jak se titulky „vyrábí“. Česká televize posílá zvuk po ISDN lince do Plzně, kde je na univerzitě zvuk rozpoznáván, jsou tvořeny titulky a ty jsou ihned odesílány po stejné lince do ČT, která je okamžitě vkládá do programu. Důvod, proč počítač, který rozpoznává řeč, není v Praze v budově ČT na Kavčích horách, je ten, že je třeba operativně aktualizovat před každým jednáním některé moduly systému rozpoznávání (např. slovníky, jazykový model apod.) (k tomuto účelu monitorujeme webovské portály apod.) a dále je zde možnost určité asistence při vytváření titulků.

  Je třeba říci, že zahájení tohoto vysílání se stalo pro všechny pracovníky na projektu obrovskou motivací a zdrojem nápadů, jak přesnost a „čtivost“ automatických titulků dále zlepšovat. Tyto nápady máme a jsou postupně realizovány, takže kvalita automatického přepisu se kontinuálně zlepšuje.

Jaké jsou naše poznatky z prvních hodin provozování této „služby“:

  1. Systém funguje poměrně přesně, mluví-li některý ze zkušených řečníků (například poslanci Sobotka, Rath, Topolánek, místopředsedové sněmovny a mnozí další). Přesnost přepisu je mírně nižší u řečníků, kteří u „pultíku“ stojí spíše sporadicky, větší problémy způsobují projevy pouze ministra Schwarzenberga. Obecně lze říci, že systém má větší chybovost vytvářených titulků, jestliže se řečník stále přeříkává, komolí slova, nedokončuje výslovnost apod.

  Jak problém řešíme nebo chceme řešit:

        Systém funguje dobře na často se objevující řečníky jednak proto, že tito řečníci umí mluvit a dále proto, že nás systém je na ně dobře natrénován (v trénovacích datech bylo hodně příkladů promluv těchto řečníků). Máme vyvinuté postupy na adaptaci systému na nového/sporadicky mluvícího řečníka. Chceme je aplikovat. Teď řešíme, jak to udělat za běhu programu (on-line při každé změně řečníka). Jakmile to vyřešíme, přesnost vytvářených titulků se zlepší zvláště u méně frekventovaných řečníků (zejména žen, pro které bylo málo trénovacích dat). Otázkou, nad kterou stále přemýšlíme, je, jak zpracovat projevy pana ministra Schwarzenberga. 

  2. V titulcích se občas objevují vložené jednopísmenné předložky či spojky, což je způsobeno zejména hlukem a řečí na pozadí (zvláště na začátku jednání, kdy se poslanci houfují). Někdy se stává, že z ČT přichází zvuk, kde je zvýšené zesílení ruchových mikrofonů (obvykle na začátku přenosu) - systém pak občas vloží nesprávné slovo.

      Jak problém řešíme nebo chceme řešit:

        Výskyty posloupností jednopísmených předložek a spojek budeme postupně eliminovat rychlým postprocessingem, tj. automatickou opravou vytvořeného titulku.

  3. Nemáme ještě zcela dobře vyřešenou otázku automatického vkládání interpunkce do automaticky generovaných titulků.

        Jak problém řešíme nebo chceme řešit:

        Interpunkci do vytvářených vět vkládá systém automaticky. Opravy špatně vložených nebo nevložených čárek budeme opět řešit rychlým postprocessingem, tj. automatickou opravou vytvořeného titulku.

  4. Problémy způsobuje i občasné „skákání“ do řeči, a to když předsedající mluví současně s řečníkem u pultíku (mají oba zapnuté mikrofony).

        Jak problém řešíme nebo chceme řešit:

        Jedná se o málo frekventovaný jev, se kterým si systém automatického rozpoznávání řeči může jen velmi obtížně poradit. Řešení vidíme v případném uplatnění „ručního“ postprocessingu (mírné pozdržení v odeslání titulku s možností částečné opravy (či vypuštění) těch „nejkřiklavějších“ chyb.

  5. Problémem jsou vyslovená slova, která systém nemá ve svém slovníku.

        Jak problém řešíme nebo chceme řešit:

        Problém eliminujeme tím, že před každým vysíláním aktualizujeme slovník (využíváme informace z webu, například i steno záznamy z jednání sněmovny). Další možností, kterou chceme vyzkoušet, je vkládání nových slov (např. jmen či speciálních názvů) do systému za běhu, tj. on-line. 
     

  6. Skryté titulky samozřejmě „nenaskakují“ synchronně s vyslovováním slov řečníkem. Je to dáno několika důvody. Jednak mluví-li řečník souvisle, musíme počkat, až dojde k „usazení“ posledního slova daného titulku (poslední slovo se může ještě měnit na základě vyslovení dalších 2 až 3 slov, které se nejspíš objeví až v dalším titulku). Znamená to, že takto vzniklé zpoždění titulku je dáno dobou, kterou řečník potřebuje k vyslovení všech slov uvedených v titulku + 2 až 3 dalších slov (je-li titulek dvouřádkový, pak je zpoždění delší). Další malé zpoždění způsobuje též proces vkládání titulku do obrazu v ČT. Na druhou stranu je zajištěno, že nám ČT posílá po telefonu zvuk s mírným předstihem před tím, než odešle obraz do vysílače. Zpoždění mezi skutečným vyslovením slova řečníkem na obrazovce a objevením se tohoto slova ve skrytém titulku se tak pohybuje kolem cca 5 až 10s.

        Jak problém řešíme nebo chceme řešit:

        V tomto případě je třeba rozhodnout, jak velké zpoždění mezi vysloveným slovem na obrazovce a objevením se titulku jsou uživatelé skrytých titulků ochotní akceptovat. Určité výše popsané zpoždění vzniká z principu vytváření a zobrazování titulků a nelze ho výrazně zkrátit. Určitým řešením by mohlo být to, že bychom dostávali zvuk po telefonu od ČT s větším předstihem než nyní (pokud je to samozřejmě realizovatelné). 

  7. Systém převádí proud řeči do textu, aniž by rozlišoval, že se změnili řečníci. Například dochází k častému střídání předsedajícího, který vyvolá krátkou promluvou řečníka, a ten pak pokračuje svým projevem. Protože obraz a titulky nejsou zcela synchronní, může u diváků, kteří sledují pouze titulky, docházet k nejasnostem, kdo z řečníků daná slova zobrazená titulkem pronesl (jde samozřejmě jen o několik slov v titulku, kdy se mění řečníci).

        Jak problém řešíme nebo chceme řešit:

        Řešením, na kterém pracujeme je využití opět ručního postprocessingu. Změna řečníka bude zobrazena např. odřádkováním, tj. novým titulkem s velkým písmenem na začátku titulku. Lze uvažovat i o určité značce před prvním titulkem (například # nebo • ), který promlouvá nový řečník, či o změně barvy titulku. Do budoucna samozřejmě chceme celou tuto činnost automatizovat, tj. omezit ruční postprocesing.

  8. Není zcela jasné, jakou formou titulky zobrazovat. Je mnoho možností, některé jsou doporučovány ČT, jiné ČT nedoporučuje. Lze vysílat sled jednořádkových titulků (někdy je ovšem málo času na jejich přečtení); sled dvouřádkových titulků (dochází k většímu zpoždění mezi prvním slovem vysloveným řečníkem na obrazovce a objevením se odpovídajícího slova v titulku); rolující titulky, tj. např. se zobrazují 2 rolující řádky. Další otázkou je, zda při vkládání titulku čekat, až řečník vysloví tolik slov, že bude titulek (1 řádka či 2 řádky) plný -  to může zpožďovat odeslání titulku (mluví-li řečník s delšími pauzami mezi slovy), na druhou stranu při „diskrétní“ promluvě s většími pauzami mezi slovy mohou naskakovat pouze jednoslovné titulky.

        Jak problém řešíme nebo chceme řešit:

        Tento problém řešíme operativně. Mluví-li řečník „diskrétně“, tj. s delšími pauzami mezi slovy, odesíláme titulek v závislosti na délce pauzy, tj. někdy se zobrazí dvou- nebo tří-slovní titulek, v případě např. vyslovení jediného slova s delší pauzou (např.: předseda, který řídí schůzi, řekne slovo a rozhlíží se) odešleme toto slovo a nečekáme na další. Pokud řečník mluví svižně, pak často generujeme dvouřádkové titulky, aby bylo více času k jejich „klidnému“ přečtení.

        Obecně lze říci, že jsme nezaznamenali, že by náš systém měl problémy s přepisem v souvislosti s rychlostí projevu řečníka, tj. i rychle mluvící poslance systém stihl přepisovat do titulků.

  9. Zjistili jsme, že při mírném pozdržení v odesílání titulků (např. cca 5s) je možné provést určitou „ruční“ korekci špatně vygenerovaného titulku. Toto zdržení se týká pouze toho titulku, který je opravován.

Jak problém řešíme nebo chceme řešit:

Tento ruční postprocessing využívají i v BBC a umožňuje určitým způsobem korigovat případné chyby automatického přepisu, které by mohly znamenat uvedení významově zcela opačného titulku, než byla informace ve mluveném projevu. Opravy tohoto typu by byly spíše výjimečné a týkaly by se korekce těch nejkřiklavějších „desinterpretací“, určitě by nešlo o úplnou opravu každé rozpoznané věty, kterou řečník pronesl). Důvodem využívání postprocessingu je fakt, že žádný systém automatického přepisu řeči do textu (ani ty, které používají pro angličtinu v BBC) nefunguje bez chyb. Oprava některých chyb či vkládání slov, které systém nezná (například nových jmen) může či musí být provedena právě tímto způsobem. Krátké pozdržení odvysílání titulku (doba na jeho opravu) je časově kompenzováno tím, že další jeden či dva titulky mají 2 řádky (tím se dožene časová ztráta). 

      Pro informaci bychom ještě chtěli uvést, že vedle prací na skrytém titulkování s využitím doprovodné zvukové stopy, pracujeme velmi intenzivně i na druhé úloze, která bude Českou televizí využívána určitě mnohem masivněji, tj. na využití stínových řečníků. Vyvinuli jsme trenažér pro výuku stínových řečníků, tj. zařízení, na kterém budou moci budoucí „přemlouvači“ televizních diskusních a zpravodajských pořadů či sportovních přenosů natrénovat svoje schopnosti při vytváření co nejpřesnějších titulků. Vyzkoušeli jsme si funkci tohoto trenažéru na několika spolupracujících studentech-stínových řečnících. Zjistili jsme, že naučit se mluvit do počítačového systému tak, aby výsledná chybovost byla minimální, vyžaduje dlouhodobější výukový proces. Trenažér budeme nyní předávat ČT, která ho otestuje a poté spustí trénink svých stínových řečníků.

    Na závěr tohoto rozsáhlejšího sdělení, kterým jsme chtěli informovat naše přátele v organizacích pro sluchově postižené o stavu řešení projektu ELAJBR, bychom rádi znali Vaše případné poznatky a názory, které byste mohli sdělit v souvislosti se zahájením vysílání skrytých titulků (zatím samozřejmě u jednoho pilotního pořadu).  Naše otázky najdete na další stránce.

    Ještě jednou děkujeme za spolupráci při řešení projektu ELJABR. 

S pozdravem

Prof. Ing. Josef Psutka, CSc. a  Doc. Ing. Luděk Müller, Ph.D.                     
řešitelé projektu ELJABR 

V Plzni, 6. března 2009

prosíme o vyplnění dotazníků na http://kochlear.cz/dotazniky/dot_autost/
Email Print
sdílet na Facebooku     Google záložky          vybrali.sme.sk vybrali.sme.sk



Další oznámení v této rubrice od autora webmaster
24/12/2021
Vánoční pohádky pro neslyšící v ČT
06/09/2021
Koronavirus v září
20/01/2021
Sociální služby Tichého světa v době covidové
22/10/2020
Smět se bude jen do práce a na procházku, obchody zavřou.
09/10/2020
Nová opatření proti koronaviru od 12. 10. 2020
11/08/2020
Ombudsman zřídil infolinku pro osoby se sluchovým postižením
05/05/2020
Informační linky k onemocnění COVID-19 mohou použít díky online přepisu hovoru i neslyšící
06/02/2020
Přehled změn u příspěvků na kompenzační pomůcky
18/03/2019
Čichové pexeso nebo největší semeno na světě? INSPO ukáže, jak poznávat květiny všemi smysly
07/01/2019
Začala registrace na konferenci INSPO 2019
30/10/2018
Tiché osudy aneb Neslyšící vyprávějí
19/09/2018
Královská cesta pro neslyšící
Diskuze a názory k článku

Vložit příspěvek
kurz?vapodtr?en?Srtike ThroughGlowst?nov?n?Maqueeform?tovan? textzarovnat dolevavycentrovatzarovnat dopravaodkazEmail Linkhorn? indexdoln? indexuvozovkyListHelp


Pro vložení příspěvku k článku se musíte přihlásit. Nemáte login? Zaregistrujte se. Registrace je zdarma

Login 
Přihlašovací jméno:

Heslo:

zapamatovat Zaregistruj se, je to zdarma!
Zapomněl(a) jsi heslo?

jsme na facebooku 

uživatelé 
Online
registrovaní: 0
neregistrovaní: 14
celkem: 14
Přihlášení

ikonka 

aktuality 

RSS kanály 

[CNW:Counter]