Univerzita Karlova koordinuje projekt na vývoj evropské AI. ‚Doufáme v lepší češtinu,‘ říká Jan Hajič

Univerzita Karlova bude koordinovat evropský projekt vývoje velkých jazykových modelů OpenEuroLLM. Ten má konkurovat modelům z USA a Číny a zajistit Evropě nezávislost. Zapojilo se do něj na 20 institucí, jde o univerzity, firmy či výzkumné skupiny ze superpočítačových center. „Modely by měly být dostupnější i pro české firmy, které by je chtěly používat pro svoje aplikace,“ říká pro iROZHLAS.cz Jan Hajič z Matematicko-fyzikální fakulty UK.

Rozhovor Praha 21:10 8. února 2025 Sdílet na Facebooku Sdílet na Twitteru Sdílet na LinkedIn Tisknout Kopírovat url adresu Zkrácená adresa Zavřít

Karlova univerzita koordinuje projekt na vývoj evropské AI (ilustrační foto) | Zdroj: Shutterstock

Mohl byste vysvětlit, co to vlastně je ten jazykový model?
Jazykový model je nástroj. V té formě, v které ho všichni znají, je to nástroj pro konverzaci na velkou řadu témat – téměř na cokoliv a lze to použít i na získání informací po příslušných úpravách, anebo se to dá použít v dalších aplikacích, například v medicíně, v technologiích, v robotice a podobně.

3:46

Češi učí umělou inteligenci měnit DNA bakterií. Mohou z nich pak vyrábět bezpečnější a levnější léky

Číst článek

Ten vlastní jazykový model je jednoduchý, protože on jenom na základě kontextu, to znamená na základě toho, co bylo řečeno nebo napsáno předtím, postupně generuje, vytváří a vydává na výstup slova v příslušném jazyce a tím reaguje na to, co člověk řekl na začátku. To je asi ta nejjednodušší definice, co jazykový model dělá v dnešním pojetí.

Jak se dostala Karlova univerzita k tomu, že se stala hlavním koordinátorem takového evropského projektu?
Zejména my tady na Ústavu formální aplikované lingvistiky jsme byli v evropských projektech v podstatě od doby, kdy jsme se stali členy Evropské unie – vlastně i předtím v nějakých speciálních projektech pro přibírané země.

Máme tedy kooperace s mnoha partnery po Evropě a na základě toho jsme před dvěma lety začali na této problematice pracovat s několika partnery z Evropy a hlavně sbírat data, což znamená texty, které se pak dají využít pro tvorbu jazykových modelů.

Na základě toho, že jsem koordinoval předchozí projekt, který se jmenoval High Performance Language Technologies, tak když vyšla výzva na mnohem větší projekt, který by skutečně měl vyprodukovat konkurenceschopný evropský jazykový model, tak jsme dali dohromady větší konsorcium, které teď začíná práci na tom novém projektu.

Jednoduše řečeno, už jsme měli tu zkušenost dříve, i sami kolegové měli velké evropské projekty předtím, takže není úplně náhoda, že jsme se dostali i k tomuhle.

Kdo všechno se má podílet na projektu OpenEuroLLM?
Na projektu se podílí celkem 20 institucí a dají se rozdělit do tří skupin. Jednak akademické instituce nebo výzkumné skupiny, například my, Univerzita v Turku ve Finsku, Univerzita v Tübingenu v Německu a další.

Pak se na tom podílejí firmy. Pro ty je ten program především určen a asi ty největší z nich jsou Silo AI z Finska a Aleph Alpha. Pak tu máme ještě menší firmy z Francie a Německa.

Třetí skupinou partnerů jsou výzkumné skupiny z velkých evropských superpočítačových center, protože bez dostatku počítačové kapacity se takový model vyrobit nedá. Ty nám pomůžou s tím se zapracovat do toho, jak jsou ta jednotlivá superpočítačová centra nastavená, abychom pak mohli na těch modelech efektivně pracovat.

Čistě textový model

Jak dlouho trvá vývoj takového jazykového modelu?
Trochu záleží na tom, čemu všemu říkáme vývoj. Samozřejmě i ve světě probíhala řada experimentů, než vešly ve známost první jazykové modely a to trvalo velmi dlouho. Čistě technicky – pokud se dobře rozhodneme pro nastavení parametrů velikosti těch textů, jaké texty použít, tak potom to vlastní trénování je v řádu týdnů až měsíců, podle toho, jak velký by ten model měl být.

49:56

Většina firem AI nepoužívá, jiní ji využijí skoro na všechno. Vzniká dvojí gramotnost, varuje novinář

Číst článek

Modely, na kterých budete pracovat, mají umožnit evropským společnostem kvalitnější služby. O jaké služby jde?
Jde jednak o služby, které všichni známe z aplikací jako ChatGPT, Gemini a podobně. Na druhou stranu mají umožnit dalším firmám, aby ty modely zabudovaly do svých produktů a našly pro ně i další inovativní možnosti, kde se mohou uplatnit.

Dneska asi, když se řekne jazykový model, tak si každý představí konverzačního robota nebo konverzační systém, s kterým si může povídat, kterému může dávat třeba texty ke korekci, kterých se může ptát na různé věci. Může po něm chtít sumarizaci textu. Samozřejmě i generování obrázků, i když třeba pro ten náš model nebudeme dělat obrázky, ale budeme se zabývat jenom textem. Pořád těch aplikací a služeb s tím spojených je spousta.

Jaké nedostatky mají současné jazykové modely? Jakým způsobem se dá takovým nedostatkům předejít?
Začnu odzadu – předejít se jim dá velmi těžko, ale všichni na tom pracují. Nejzávažnějším nedostatkem je, že ty modely velmi věrohodně říkají nepravdu, když to shrnu jednoduše. Ne vždycky, dokonce bych řekl, že dneska ty kvalitní modely už jsou většinou poměrně spolehlivé, ale pořád najdete výstupy, které prostě nejsou pravda nebo nějakým způsobem pravdu ohýbají. Ať už je to způsobeno tím, že člověk je k tomu přiměl svými vstupy a otázkami, anebo to prostě dělají samy od sebe a nikdo úplně neví proč.

‚Bojím se.‘ Zaměstnanci OpenAI varují, že firma s umělou inteligenci nebude zacházet odpovědně

Číst článek

Druhá vada, kterou ty modely mají, je, že neumí vysvětlit své uvažování. Na tom se teď pracuje, takže některé už to trochu umí a dokážou nám říct, proč nám řekly to, co nám řekly, a dokážou k tomu najít třeba i informační zdroje. Ale zase – někdy ty zdroje nejsou vlastně pravda. Oni si je prostě vymýšlí.

Na to se používá slovo „halucinace“, o kterém se trochu spekuluje, jestli je to dobrý termín, protože aby automat halucinoval, je trochu zvláštní, ale jde o to, že prostě ty výstupy jsou buď částečně, nebo zcela nepravdivé.

Poslední věc, která je důležitá, je, že samozřejmě nechceme, aby ty modely nějakým způsobem porušovaly právo na ochranu osobních údajů, což může být spojeno s daty, na kterých byly natrénovány, protože se tam třeba nachází informace, která se dostane ven, i když nepřímo.

Na to se také dbá, ale úplně vyloučit se to nedá, takže bude potřeba se zaměřit i na tuhle věc, která se samozřejmě v Evropě velmi hlídá a je potřeba, aby ty modely všechna opatření, která v Evropě platí, respektovaly.

Už v tiskové zprávě jste zmiňoval jako jeden z plusů těch modelů, že budou vyhovovat evropské regulaci. Víte dnes o tom, že by ji např. OpenAI, který stojí za ChatGPT či DeepSeek nějakým způsobem porušovaly?
Ona ta regulace sice už platí, ale ještě se bude muset dotáhnout, jak přesně se bude specifikovat a jakým způsobem budou muset firmy dokazovat, že té regulaci podléhají. My samozřejmě na tohle cílíme.

Podmínka projektu byla, že modely, které uděláme, samy nesmí tu regulaci porušovat a musí umožňovat dalším firmám, aby jí vyhověly, to znamená, aby jejich produkty mohly fungovat na evropském trhu.

Za deepfake tři roky natvrdo. Podle návrhu italského zákona bude AI před soudem přitěžující okolnost

Číst článek

Otázka, jestli ChatGPT nebo jiné dneska dostupné modely či služby ta pravidla porušují, nebo ne, to úplně říct neumíme. Je také vidět, že každá země se na to tváří jinak. Víme, že třeba v Itálii jsou přísnější než jinde.

Jestli je to z hlediska ochrany osobních údajů nebo i nějakých jiných důvodů, to zatím není úplně jasné, ale můžu říct, je, že to, co my vyrobíme, prostě musí odpovídat normám. To je vlastně podmínka toho, že jsme na to dostali prostředky.

Dostupnější pro české firmy

Odborník z brněnského VUT Martin Fajčík pro server Lupa.cz uvedl, že současné jazykové modely jsou anglocentrické. Jak se to na nich projevuje?
To se projevuje tak, že data, na kterých se dneska modely trénují, jsou zhruba z poloviny v angličtině a většinou v americké angličtině. Nejde jen o jazyk, ale i o to, co je v tom jazyce napsáno, protože ty modely si to umí do jisté míry zapamatovat. Já řeknu příklad, který možná ty modely ne vždycky takhle špatně řeknou.

Představte si, že se česky zeptáte, kde máte podat daňové přiznání a místo, aby vám to řeklo adresu vašeho finančního úřadu, tak řekne, že se to má poslat do Texasu. Sice to řekne česky, protože ten model samozřejmě ví o češtině, ale protože mnohem víckrát viděl někde napsáno, kde se v Americe podává daňové přiznání, tak se vás bude snažit přesvědčit, že ho máte podat tam.

3:59

Proč AI někdy odpovídá nesmyslně? Jazykové modely pracují s čísly, ne se slovy, vysvětluje expert

Číst článek

To nemá co dělat s politikou, to je prostě dáno technologií, která za tím je. My budeme mít velkou snahu, aby se tohle nedělo. Znamená to, že se budeme muset zaměřit na jazyky, které těch dat mají málo a které by kvůli tomu mohly trpět podobným syndromem, že ten model vydoluje ze svých útrob, co se naučil na těch anglických textech, ačkoliv to neodpovídá ani fakticky, ani kulturně, ani věcně tomu, že se ptá někdo z jiné země jiným jazykem.

Jakým způsobem budou z této inciativy profitovat čeští uživatelé?
Především doufáme, že ty modely budou tu češtinu dělat lépe a i z hlediska, o kterém jsme mluvili předtím, to znamená i z lokálního a kulturního hlediska, než to dělají současné modely.

Samozřejmě tím, že ty modely budou zcela otevřené, tak by měly být dostupnější i pro české firmy, které by je chtěly používat pro svoje aplikace, ať už tady, ale i v evropském měřítku, protože v tom budou všechny evropské jazyky, dokonce i jazyky zemí, které by mohly v budoucnu přistoupit a další jazyky. Takže by to mělo svědčit firmám, které chtějí fungovat na evropském trhu a samozřejmě i v rámci Česka.

Tereza Trojanová Sdílet na Facebooku Sdílet na Twitteru Sdílet na LinkedIn Tisknout Kopírovat url adresu Zkrácená adresa Zavřít

Mohlo by vás zajímat

31:54

Když nebudete chodit po světě jako turista, uvidíte fantastické věci, přibližuje historik Putna

Bývalý velitel NATO: Putin bude ochotný jednat, když mu způsobíte bolest, teď to v úmyslu nemá

‚Jak můžete být takový ignorant?‘ Ministr Kennedy přetavuje nedůvěru k očkování v politické kroky

Agrofert musel vrátit dotaci kvůli Babišovu střetu, pak vyhrál soud. Úřad teď znovu řekl, že na ni nemá nárok

Technologie

Apple čelí žalobě spisovatelů. Měl využívat jejich knihy k trénování umělé inteligence

Žaloba je podle agentury Reuters součástí stupňující se právní bitvy ohledně ochrany duševního vlastnictví v éře umělé inteligence.

Novou technologii pro monitorování dronů testují v Přerově. Má zajistit větší bezpečnost provozu

25:09

Vývojář: Fake news před volbami? Používejte selský rozum a ptejte se, zda není načasování zvláštní

Nejčtenější za posledních 24 hodin

Nejčtenější za poslední 3 dny

Nejčtenější za poslední týden

Nejnovější články

Aktuální témata

Zprávy z domova, Zprávy ze světa Sněmovní volby 2025, Volební průzkumy, Petr Pavel, Petr Fiala, Andrej Babiš, Markéta Pekarová Adamová, Marek Výborný, Vít Rakušan, Zdeněk Hřib, Tomio Okamura, Koalice Spolu, ODS, TOP 09, KDU-ČSL, Hnutí STAN, Piráti, Hnutí ANO, Hnutí SPD, Stačilo!, Motoristé Sobě, Česko 2025, Online k ruské invazi na Ukrajinu, Vladimir Putin, Volodymyr Zelenskyj, Donald Trump, Elon Musk, Si Ťin-pching, Evropská unie, Vinohradská 12, Ověřovna!, Kutnohorská sekta, Společnost nedůvěry, Rozděleni Evropou, Akce: Výbuch, České klima, Film, Můj rozhlas, Počasí, Tipsport extraliga ledního hokeje 2024/2025, Fotbalová liga 2024/2025, Biatlon

iRozhlas

Univerzita Karlova koordinuje projekt na vývoj evropské AI. ‚Doufáme v lepší češtinu,‘ říká Jan Hajič

Čistě textový model

Dostupnější pro české firmy

Čínský chatbot DeepSeek zaskočil americké konkurenty. Odpovědi o Tchaj-wanu ale cenzuruje

Jourová: O umělé inteligenci musí Evropa jednat s USA jednotně. Bezpečnost je v zájmu celého lidstva

Mohlo by vás zajímat

Když nebudete chodit po světě jako turista, uvidíte fantastické věci, přibližuje historik Putna

Bývalý velitel NATO: Putin bude ochotný jednat, když mu způsobíte bolest, teď to v úmyslu nemá

‚Jak můžete být takový ignorant?‘ Ministr Kennedy přetavuje nedůvěru k očkování v politické kroky

Agrofert musel vrátit dotaci kvůli Babišovu střetu, pak vyhrál soud. Úřad teď znovu řekl, že na ni nemá nárok

Technologie

Apple čelí žalobě spisovatelů. Měl využívat jejich knihy k trénování umělé inteligence

Novou technologii pro monitorování dronů testují v Přerově. Má zajistit větší bezpečnost provozu

Vývojář: Fake news před volbami? Používejte selský rozum a ptejte se, zda není načasování zvláštní

Nejčtenější za posledních 24 hodin

Nejčtenější za poslední 3 dny

Nejčtenější za poslední týden

Nejnovější články

VIDEO: Česko se po šesti letech dočkalo úplného zatmění Měsíce. Další bude až v roce 2028

Zima na Ukrajině může být letos mrazivá. Rusko má dost raket na ničení infrastruktury, popisuje diplomat

Při cyklistickém závodu v Německu se zranilo 70 jezdců, 20 z nich skončilo v nemocnici

Ve Skotsku odhalili památník pilotovi RAF Heklovi. Je druhým českým letcem, který má v Británii pomník

ONLINE: Rusové poprvé zasáhli ukrajinský úřad vlády. Kyjev opět trefil ropovod Družba

Pedersen si v patnácté etapě Vuelty dospurtoval pro vítězství. Před volným dnem stále vede Vingegaard

Aktuální témata

Doporučujeme

Univerzita Karlova koordinuje projekt na vývoj evropské AI. ‚Doufáme v lepší češtinu,‘ říká Jan Hajič

Čistě textový model

Dostupnější pro české firmy

Mohlo by vás zajímat

Když nebudete chodit po světě jako turista, uvidíte fantastické věci, přibližuje historik Putna

Bývalý velitel NATO: Putin bude ochotný jednat, když mu způsobíte bolest, teď to v úmyslu nemá

‚Jak můžete být takový ignorant?‘ Ministr Kennedy přetavuje nedůvěru k očkování v politické kroky

Agrofert musel vrátit dotaci kvůli Babišovu střetu, pak vyhrál soud. Úřad teď znovu řekl, že na ni nemá nárok

Technologie

Apple čelí žalobě spisovatelů. Měl využívat jejich knihy k trénování umělé inteligence

Novou technologii pro monitorování dronů testují v Přerově. Má zajistit větší bezpečnost provozu

Vývojář: Fake news před volbami? Používejte selský rozum a ptejte se, zda není načasování zvláštní

Nejčtenější za posledních 24 hodin

Bývalý velitel NATO: Putin bude ochotný jednat, když mu způsobíte bolest, teď to v úmyslu nemá

Agrofert musel vrátit dotaci kvůli Babišovu střetu, pak vyhrál soud. Úřad teď znovu řekl, že na ni nemá nárok

Podle Lipavského úspěch, dle politologů propadák. K volbě poštou se přihlásilo necelých 11 tisíc krajanů

Bříza: Američané vojáky na Ukrajinu nevyšlou. Ale můžou jim dodat věci, o kterých se jim ani nesní

Ve věku 84 let zemřel režisér Petr Obdržálek. Spolu s manželkou Saskií Burešovou vytvářel Kalendárium

Rychetský: Nepřiznané koalice jsou v každých volbách do Sněmovny. Bylo to mlčky respektované pravidlo

Nejnovější články

VIDEO: Česko se po šesti letech dočkalo úplného zatmění Měsíce. Další bude až v roce 2028

Zima na Ukrajině může být letos mrazivá. Rusko má dost raket na ničení infrastruktury, popisuje diplomat

Při cyklistickém závodu v Německu se zranilo 70 jezdců, 20 z nich skončilo v nemocnici

Ve Skotsku odhalili památník pilotovi RAF Heklovi. Je druhým českým letcem, který má v Británii pomník

ONLINE: Rusové poprvé zasáhli ukrajinský úřad vlády. Kyjev opět trefil ropovod Družba

Pedersen si v patnácté etapě Vuelty dospurtoval pro vítězství. Před volným dnem stále vede Vingegaard

Aktuální témata

Doporučujeme