Spojení literatury a matematiky. ‚Dá se vyčíst leccos,‘ říká lingvista, který se zabývá otázkou autorství

Nejvyšší vědecké ohodnocení získalo letos jedenáct výjimečných osobností Akademie věd. Mezi novými nositeli je také lingvista Petr Plecháč z Ústavu pro českou literaturu. Svou dizertaci o rozborech básnických textů obhájil před komisí a získal tak titul doktor filologických věd. „Vždycky záleží na tom, jaká máte k dispozici data a co jsou všechno dopředu víte,“ přibližuje v rozhovoru pro Český rozhlas Plus Plecháč.

Rozhovor Praha Sdílet na Facebooku Sdílet na Twitteru Sdílet na LinkedIn Tisknout Kopírovat url adresu Zkrácená adresa Zavřít

knihy

knihy | Foto: Michaela Danelová | Zdroj: iROZHLAS.cz

Ve své práci propojujete studium matematiky a bohemistiky. K analýze literatury využíváte statistické metody a strojové učení. Co všechno můžete těmito metodami z literárních textů vyčíst?
S takovými metodami se dá vyčíst leccos. Od toho, o čem zhruba o text pojednává, jaké jsou tematicky podobné texty, nějak je klastrovat třeba s přibližnou datací, kdy byl text napsán nebo kdo s největší pravděpodobností mohl být jeho autorem.

26:12

Čeština je obrovský svět, nemůžete ho znát celý. Nejproblematičtější je artikulace, říká jazykovědec

Číst článek

Právě tomu se vy věnujete – problematice autorství, a to i u textů z dob dávno minulých. Jak složité určit autora díla a co vlastně všechno taková analýza vyžaduje?
Ono vždycky strašně moc záleží na tom, jaká máte k dispozici data a co jsou všechno dopředu víte.

Jednodušší je ta otázka samozřejmě ve chvíli, kdy máte dva podezřelé kandidáty, než když jich máte 50 anebo ten kandidátský okruh neznáte vůbec. Zároveň je potřeba prostě mít k dispozici co nejvíc textů od těch případných podezřelých. Ideálně z období, kdy třeba byl zhruba ten text napsán.

Protože, vezmete-li třeba texty, které produkuji dneska, a srovnáte je s texty, které jsem produkoval, když mně bylo 10 let, tak ony už si moc podobné nebudou.

Poznáte třeba podle frekvence slov nebo dalších znaků, já nevím, typu pomlčky, dvojtečky apod., kdo byl autorem, respektive třeba kdo jím není, přisuzuje se mu autorství?
Pracuje se často s frekvencí slov nebo frekvencí jinak definovaných definovaných jednotek a vždycky to záleží jednak na tom, jak je ten sporný text dlouhý, protože prostě ze tří vět toho matematickou analýzou moc nezjistíte. A zároveň na tom, jak moc textů z daného období zhruba a v nějakém srovnatelném žánrů od těch podezřelých máte k dispozici.

Vy jste mezinárodního úspěchu dosáhl výzkumem, který právě za použití strojového učení a verzi logických charakteristik, určil autorství hry Jindřich VIII. Kdo přesně tedy stojí za vznikem toho alžbětinského dramatu, které zachycuje život anglického krále. Byl to William Shakespeare, anebo jeho současník John Fletcher?
S největší pravděpodobností oba zároveň, a to tak, že jak Shakespeare, tak Fletcher byli autory zhruba poloviny toho díla, což není ostatně myšlenka nikterak revoluční – poprvé byla vyslovena už v roce 1850 Jamesem Springerem, který už tehdy provedl takovou elementární elementární analýzu textu, kterou se to snažil, který už se to snažil podepřít. Od té doby těch studií vznikla celá řada.

35:15

Profesor Hilský: Kniha Shakespearova Anglie byla nenapsatelná, Shakespeare je nepřeložitelný

Číst článek

A nedávno vám taky vyšel článek o Milanu Kunderovi. Šlo o divadelní hru Juro Jánošík, která měla premiéru v roce 1974. Autorem měl být Karel Steigerwald, Kunderův žák. Co vám prozradila matematická analýza?
To je článek, který jsme napsali spolu s kolegyní Lenkou Jungmannovou, která se dílem Milana Kundery dlouhodobě zabývá. A s největší pravděpodobností autorem té hry ve skutečnosti byl Milan Kundera. Karel Steigerwald pravděpodobně je uveden jako autor z toho důvodu, že Kundera už tehdy byl autorem ne příliš pohodlným.

A na čem v současnosti pracujete?
V této chvíli se zabývám rozpoznáváním vlastních jmen v poezii, na což existuje spousta nástrojů a modelů pro neveršované texty. Ovšem u textů veršovaných je to poměrně obtížnější tím, že se tam často objevují různé personifikace a velká počáteční písmena, která obvykle jsou dobrým ukazatelem toho, co se jmenuje a co ne, se v poezii užívají  dost jinak než mimo řeč neveršovanou.

Tomáš Pavlíček Sdílet na Facebooku Sdílet na Twitteru Sdílet na LinkedIn Tisknout Kopírovat url adresu Zkrácená adresa Zavřít

Nejčtenější

Nejnovější články

Aktuální témata

Doporučujeme