Únor přinesl povinnosti, listopad horoskopy a Ježíše. Co o českých dějinách prozrazuje 883 tisíc knih
Datový tým Českého rozhlasu zpracoval Českou národní bibliografii, kterou Národní knihovna otevřela veřejnosti. První díl pětidenního seriálu článků ukazuje, jak se od začátku 20. století proměňovala nakladatelská scéna i témata vydávaných knih.
Kdo má pocit, že vychází tolik knih, až to nejde přečíst, toho můžou data uklidnit: je tomu skutečně tak. Zdolat všechna první vydání tempem jedné strany za minutu po osm hodin každý den bylo v silách jednotlivce naposledy za druhé světové války. Kdybychom takto chtěli prozkoumat loňskou knižní produkci, dočetli bychom za deset let.
Tyto výpočty vycházejí z datasetu Česká národní bibliografie obsahujícího záznamy o milionu a čtvrt publikací vydaných na českém území od roku 1801 do současnosti. Před třemi lety jej s několika dalšími datasety, například životopisnými údaji stovek tisíc autorů a autorek, veřejnosti otevřela Národní knihovna. Daty sem přispívají i další české knihovny, například Moravská zemská knihovna, Vědecká knihovna v Olomouci a Městská knihovna v Praze.
Knižní datatýden
Nezvyklý pohled na českou literaturu a knižní produkci obecně přináší datový tým Českého rozhlasu.
- pondělí: průlet 20. stoletím
- úterý: lidé za knihami
- středa: trendy posledních let
- čtvrtek: nevydaná literatura
- pátek: spisovatelky
Spíše než o výpočtech by bylo poctivější mluvit o co nejpřesnějších odhadech. Ani tato tabulka totiž nemusí obsahovat absolutně vše, co na českém území kdy vyšlo. Nadto se přesnost i úplnost dat vyplněných o konkrétních knihách liší napříč léty, knihovnami i jednotlivými tituly. Někde se dozvíme, kdo napsal doslov a kdo vyryl dřevoryty, kdežto jinde chybí třeba přesná informace o roku vydání.
„V průběhu minulého století se katalogizační pravidla různila,“ vysvětluje Edita Lichtenbergová, ředitelka odboru zpracování fondů Národní knihovny. „Až do padesátých let se v záznamech například neuváděla předmětová hesla, v záznamech převzatých z dobové tištěné bibliografie tedy chybějí. Databáze se ale doplňuje i zpětně, takže můžete najít záznamy publikací vydaných například ve třicátých letech, které byly vytvořeny podle nejnovějších pravidel, s úplnou katalogizací včetně všech předmětových hesel,“ popisuje.
Práce s knihovnickými daty obnáší i další háčky. Počítat nový překlad již vydané knihy za knihu novou? Jaké všechny formáty do srovnání zahrnout? Knihovníci na to mají své metodiky: „Například atlas je pro nás kartografický dokument,“ uvádí Lichtenbergová.
My budeme v tomto i následujících článcích pracovat s volnějšími filtry a raději uvidíme mezi knihami i atlasy nebo sešity Čtyřlístku, než aby tam něco chybělo. Detailněji popisuje postup datového týmu Českého rozhlasu box na konci článku a v úplnosti jej lze v případě zájmu prozkoumat na GitHubu.
Babička v máji trhala kytici
Navzdory nevyhnutelným problémům zůstává Česká národní bibliografie nejkompletnějším dostupným zdrojem informací o proměnách i současné podobě české knižní produkce. V úterý se v seriálu podíváme na to, kdo vlastně knihy píše, ve středu na trendy posledních dekád, ve čtvrtek v datech najdeme autorstvo umlčené silou i nezájmem trhu a v pátek prozkoumáme měnící se postavení žen-spisovatelek. Dnes si dopřejeme celkový obrázek.
Část ze zmíněného 1,25 milionu záznamů České národní bibliografie tvoří jiné materiály než knihy: mapy, plakáty nebo gramodesky. Knih tu najdeme 883 tisíc, z toho 699 tisíc unikátních titulů. Žebříčku opakovaných vydání nepřekvapivě vládne povinná četba.
Když záběr rozšíříme i na knihy, které na obálce nemají údaj o autorství, v top 10 se objeví i Bible nebo Čítanka pro školy obecné. Právě Bible je zřejmě vůbec nejvydávanější knihou, dopočítat se přesného počtu je tu ale ještě obtížnější než u jiných titulů: hranice mezi „opravdovou“ Biblí a převyprávěními je mlhavá, Starý i Nový zákon vycházejí i samostatně, v hledání se objevují i „bible“ jiných oborů a navíc u nás Bible vycházela už před prvním rokem dat, tedy 1801.
Kdy z filmů zmizeli milenci a kdy vrazi? Datové putování po 125 letech české kinematografie
Číst článek
Za seriál o nejvíce dílech lze považovat 145 cliftonovek. Tyto šestákové detektivky „z pamětí amerického detektiva“ psali čeští autoři a většina jich vyšla ještě před první světovou válkou. Za minulého režimu byly publikací s nejvíce díly Spisy Vladimíra Iljiče Lenina, po revoluci to je 65dílná manga série Masaši Kišimota Naruto o chlapci, který se snaží stát nindžou.
Každá třetí kniha ruská
Relativně spolehlivě jsou v datech zachyceny původní jazyky vydaných knih. Ačkoliv je většina produkce původní, tedy česká, posledních třicet let překlady představují skoro 40 procent celkového objemu – počítáme jak úplné novinky, tak reedice. Víc už to bylo jen těsně po únorovém převratu, v letech 1951 a 1952. Pochopitelně se liší dominantní originální jazyky: tehdy to byla ruština, dnes angličtina. Pro úplnost: řeč je zde o knihách všech žánrů, včetně učebnic nebo odborných publikací.
Právě řeči, ze kterých se knihy překládají a naopak nepřekládají, jsou jedním z nejzřetelnějších ukazatelů zlomů v českých dějinách, které v národní bibliografii najdeme. Zrovna angličtina a ruština mají spolu s němčinou ze všech jazyků největší rozptyl – po roce 1900 se z nich v některých obdobích překládalo hodně, v jiných naopak málo. Stabilní, tedy všemi režimy podobně tolerované, jsou z těch nejčastějších latina, řečtina a španělština.
Od konkurence k monopolu
Založení Československa, druhá světová válka i sametová revoluce na nás vyskočí též z pohledu na pestrost nakladatelské scény. Největší úmrtnost jednotlivých nakladatelství vykazovala léta po komunistickém převratu v únoru 1948 – pro tři čtvrtiny nakladatelů, kteří v tomto roce něco vydali, šlo o poslední rok činnosti.
„Činnost nakladatelství a vydávání časopisecké produkce byly po únoru 1948 ztíženy tvrdou cenzurou, která dovršila předcházející regulativní tendence a projevovala se v nejrůznějších formách,“ rekapituluje tehdejší události monografie Dějiny české literatury 1945–1989 vydaná Ústavem pro českou literaturu Akademie věd ČR. K cenzuře přičtěme vyvlastňování a slučování nakladatelství, ale taky útěk řady nakladatelů i spisovatelů do zahraničí.
O něco nižší vrcholek najdeme v roce 1938, tedy době zabrání pohraničí nacistickým Německem a všeobecných příprav na válku – tady byly důvody podobné.
Jako mimořádně pestrá vychází z historického srovnání nakladatelská scéna první republiky a pak také ta porevoluční. Zároveň ale v posledních letech platí, že nových nakladatelů ubývá a podíl těch velkých opět roste.
„Za první republiky si bylo nutné pozici největšího nakladatelství vybojovat. Za nacistů a komunistů to bylo přidělené,“ glosuje historický vývoj Pavel Janoušek z Ústavu pro českou literaturu Akademie věd, hlavní autor zmíněných Dějin české literatury 1945–1989. „SPN vydávala téměř všechny učebnice,“ vysvětluje skoro čtyřicetiletou hegemonii historicky vůbec největšího, nyní již nefunkčního Státního pedagogického nakladatelství. „Pokud jde o krásnou literaturu, největší byl Československý spisovatel,“ doplňuje.
Ježíš i horoskopy
Společenské nebo technologické proměny odhalují také témata vydávaných nebo naopak nevydávaných knih. Nelze však sestavit smysluplný žebříček automatickým výpočtem nejhojněji zmiňovaných témat – katalogizační pravidla se totiž několikrát měnila a knihovnický personál měl a má při vyplňování jistou míru volnosti. Následující graf je tedy výsledkem ručního výběru takových slov v popiscích a štítcích, které viditelně přicházejí a mizí v letech velkých změn.
Strojově lze z dat vyzobat alespoň páry kategorií, které mají souběžné trajektorie, tedy začínají a případně i přestávají vycházet ve stejných letech. Jedny z nejsilnějších korelací příznačně vykazují páry klíčových slov „sebeláska“/„superhrdinské komiksy“, „alternativní energetické zdroje“/„multikulturní výchova“ a „marriage“ (manželství)/„psychologie řízení“.
Z čeho a jak jsme počítali
Datový tým Českého rozhlasu vycházel z dat České národní bibliografie a databáze Národních autorit, která v případě potřeby doplňoval daty z dalších platforem jako Wikidata; na využití takovýchto alternativních datasetů v příslušných grafech upozorňujeme.
Základní filtr pro naprostou většinu výpočtů vypadá takto: z národní bibliografie bereme záznamy, které jsou v poli „leader“ označeny jako jazykový materiál (83 % záznamů) a zároveň tam nejsou označeny jako časopy nebo například mapy (zůstává 79 % záznamů). Dále ponecháváme jen záznamy, které mají v poli „008“ kód pro vydání na českém území a v českém jazyce (zůstává 71 %). Knihám s přibližným rokem vydání od-do přiřazujeme náhodný rok, pokud je toto rozmezí do pěti let včetně; v opačném případě je vyřazujeme (zůstává 70 % původního rozsahu národní bibliografie).
Za české autory a autorky považujeme ty, kteří mají v datech o autoritách v poli 370$c řetězec „Česk“. Projdou tedy i hodnoty „České království“ a „Československo“. Lidí náležejících spíše ke slovenské nebo německé kultuře ale ve vyfiltrovaných datech mnoho nenajdeme – jednak jsou v datech lidé tvořící v 19. a 20. století přiřazeni k dnešním státům, a jenak právě kvůli výše uvedeným jazykovým filtrům.
Výpočty lze zkontrolovat na GitHubu, kde v sešitech č. 902 až 906 také dovysvětlujeme některé naše úvahy a postupy při přípravě tohoto seriálu. Pro replikaci výpočtů je nejprve nutné z původních zdrojů stáhnout data a pak je očistit, k tomu slouží skripty 050 až 070. (Mohou běžet až desítky hodin a postahují desítky GB dat.)
Barevnou paletu pro grafy jsme převzali z diagramu fungování kladky v knize Jak s tím pohnu, kterou výtvarně zpracoval František Škoda.