Listovat archivem by mohla umělá inteligence. V Kladně ji vyvíjejí i vědci z amerického institutu
Experti z prestižního Massachusetského technologického institutu (MIT) se podílí na zjednodušení historického výzkumu. Pro archiv v Kladně vyvíjejí umělou inteligenci, která by vědcům mohla pomoci s bádáním. Místo člověka by tisícovkami stran dokumentů listoval stroj.
„Tady vidíme žádost o milost. Na dokumentu je napsáno 1944 a ten dokument pokračuje v němčině, pak česky, je dvojjazyčné,“ stojí historik Jan Vondráček nad 80 let starými prameny okresního úřadu v Kladně.
Jak se dá s pomocí AI prohlížet digitalizovat archiv? Pracují na tom čeští vědc spolu s jednou z nejlepších univerzit na světě
Žádosti o milost jsou psané různými jazyky, česky i německy, a psané jsou rukou i na stroji.
„Dole máme ještě podpisy. Ten stroj musí být schopen ještě rozluštit, co tam stojí, že tady stojí jméno František Novotný. A my to přečteme, ale když máme dopis... Tady je třeba krásný příklad, tohle je žádost o milost psaná rukou, a to už je mnohem těžší to rozluštit, to už trvá. To se pak taky ten stroj musí naučit," popisuje Vondráček z Masarykova ústavu a Archivu Akademie věd.
Přeložit a prohledat
Na stejný dopis se dívá historik i na počítači. A to díky novému softwaru, který spolu se svými kolegy z Massachusetského technologického institutu vyvíjí Max Frischknecht ze švýcarského Digital Humanties University of Bern.
Strašák jménem umělá inteligence? O práci vás nepřipraví, jen ji změní k lepšímu, tvrdí expert
Číst článek
„Co teď vidíme, je dopis napsaný v češtině, já česky ale neumím. A myšlenka je, že v budoucnosti náš software bude umět dokument přeložit třeba do mého rodného jazyka, do němčiny,“ popisuje Frischknecht
„A díky umělé inteligenci bychom měli být schopní nalézt informace, které s tímto dokumentem souvisí – kdo podepsal tento dopis, kdo byl jeho autorem, jaké další podobné dokumenty se v archivu vyskytují, jednoduše se tedy snažíme všechny tyto dokumenty propojit, což by mělo historikům usnadnit prohledávání tisíců a tisíců dokumentů,“ plánuje Frischknecht.
Projekt je vůbec první spoluprací české Akademie věd a Massachusettského technologického institutu v oblasti společenských věd. Češi mají na starost ofocení dokumentů v kladenském archivu, tedy jejich digitalizaci. Američané zase vyvíjejí software, který bude umět v dokumentech vyhledávat.
Zatím webová stránka funguje v omezeném režimu, vývojáři stále pracují na zdokonalování umělé inteligence i výsledném designu.
Rizika umělé inteligence přeceňujeme především kvůli novosti technologie, myslí si novinář Koubský
Číst článek
„Tohle je první prototyp kladenského archivu. Ukazuje všechny dokumenty, které byly digitalizovány. Můžete v nich hledat, vyhledávání si můžete i zúžit na typ. Třeba pokud vás zajímají zákony, kliknete na zákony a vidíte jen ty,“ vysvětluje Frischknecht.
„Taky můžete prameny řadit například podle času. Teď vidíte nejstarší zákon. A pak se samozřejmě můžete podívat na konkrétní dokument, přečíst si jeho popisek, ale i celý text,“ přibližuje.
Jen začátek
Software, který má za cíl zjednodušit hledání v kladenském archivu, je podle Vondráčka jen začátek. Postupně by ho rádi naučili fungovat komplexněji a v dalších archivech u nás i ve světě.
„Teď je to pilotní projekt, zabývá se jen řízeným hospodářstvím, to byl takzvaný seed fund, semínko, ze kterého něco vyroste. My chceme, aby vyrostl celý strom z celého projektu. Proto v budoucnu plánujeme větší grantový projekt, který by vyvinul software, který by byl aplikovatelný na jiný kontexty,“ dívá se český historik do budoucnosti.
Digitalizovaný kladenský archiv by mohl historikům, studentům i jiným zájemcům usnadnit jejich bádání už příští rok.