Univerzita Karlova koordinuje projekt na vývoj evropské AI. ‚Doufáme v lepší češtinu,‘ říká Jan Hajič
Univerzita Karlova bude koordinovat evropský projekt vývoje velkých jazykových modelů OpenEuroLLM. Ten má konkurovat modelům z USA a Číny a zajistit Evropě nezávislost. Zapojilo se do něj na 20 institucí, jde o univerzity, firmy či výzkumné skupiny ze superpočítačových center. „Modely by měly být dostupnější i pro české firmy, které by je chtěly používat pro svoje aplikace,“ říká pro iROZHLAS.cz Jan Hajič z Matematicko-fyzikální fakulty UK.
Mohl byste vysvětlit, co to vlastně je ten jazykový model?
Jazykový model je nástroj. V té formě, v které ho všichni znají, je to nástroj pro konverzaci na velkou řadu témat – téměř na cokoliv a lze to použít i na získání informací po příslušných úpravách, anebo se to dá použít v dalších aplikacích, například v medicíně, v technologiích, v robotice a podobně.
Češi učí umělou inteligenci měnit DNA bakterií. Mohou z nich pak vyrábět bezpečnější a levnější léky
Číst článek
Ten vlastní jazykový model je jednoduchý, protože on jenom na základě kontextu, to znamená na základě toho, co bylo řečeno nebo napsáno předtím, postupně generuje, vytváří a vydává na výstup slova v příslušném jazyce a tím reaguje na to, co člověk řekl na začátku. To je asi ta nejjednodušší definice, co jazykový model dělá v dnešním pojetí.
Jak se dostala Karlova univerzita k tomu, že se stala hlavním koordinátorem takového evropského projektu?
Zejména my tady na Ústavu formální aplikované lingvistiky jsme byli v evropských projektech v podstatě od doby, kdy jsme se stali členy Evropské unie – vlastně i předtím v nějakých speciálních projektech pro přibírané země.
Máme tedy kooperace s mnoha partnery po Evropě a na základě toho jsme před dvěma lety začali na této problematice pracovat s několika partnery z Evropy a hlavně sbírat data, což znamená texty, které se pak dají využít pro tvorbu jazykových modelů.
Na základě toho, že jsem koordinoval předchozí projekt, který se jmenoval High Performance Language Technologies, tak když vyšla výzva na mnohem větší projekt, který by skutečně měl vyprodukovat konkurenceschopný evropský jazykový model, tak jsme dali dohromady větší konsorcium, které teď začíná práci na tom novém projektu.
Jednoduše řečeno, už jsme měli tu zkušenost dříve, i sami kolegové měli velké evropské projekty předtím, takže není úplně náhoda, že jsme se dostali i k tomuhle.
Kdo všechno se má podílet na projektu OpenEuroLLM?
Na projektu se podílí celkem 20 institucí a dají se rozdělit do tří skupin. Jednak akademické instituce nebo výzkumné skupiny, například my, Univerzita v Turku ve Finsku, Univerzita v Tübingenu v Německu a další.
Pak se na tom podílejí firmy. Pro ty je ten program především určen a asi ty největší z nich jsou Silo AI z Finska a Aleph Alpha. Pak tu máme ještě menší firmy z Francie a Německa.
Třetí skupinou partnerů jsou výzkumné skupiny z velkých evropských superpočítačových center, protože bez dostatku počítačové kapacity se takový model vyrobit nedá. Ty nám pomůžou s tím se zapracovat do toho, jak jsou ta jednotlivá superpočítačová centra nastavená, abychom pak mohli na těch modelech efektivně pracovat.
Čistě textový model
Jak dlouho trvá vývoj takového jazykového modelu?
Trochu záleží na tom, čemu všemu říkáme vývoj. Samozřejmě i ve světě probíhala řada experimentů, než vešly ve známost první jazykové modely a to trvalo velmi dlouho. Čistě technicky – pokud se dobře rozhodneme pro nastavení parametrů velikosti těch textů, jaké texty použít, tak potom to vlastní trénování je v řádu týdnů až měsíců, podle toho, jak velký by ten model měl být.
Většina firem AI nepoužívá, jiní ji využijí skoro na všechno. Vzniká dvojí gramotnost, varuje novinář
Číst článek
Modely, na kterých budete pracovat, mají umožnit evropským společnostem kvalitnější služby. O jaké služby jde?
Jde jednak o služby, které všichni známe z aplikací jako ChatGPT, Gemini a podobně. Na druhou stranu mají umožnit dalším firmám, aby ty modely zabudovaly do svých produktů a našly pro ně i další inovativní možnosti, kde se mohou uplatnit.
Dneska asi, když se řekne jazykový model, tak si každý představí konverzačního robota nebo konverzační systém, s kterým si může povídat, kterému může dávat třeba texty ke korekci, kterých se může ptát na různé věci. Může po něm chtít sumarizaci textu. Samozřejmě i generování obrázků, i když třeba pro ten náš model nebudeme dělat obrázky, ale budeme se zabývat jenom textem. Pořád těch aplikací a služeb s tím spojených je spousta.
Jaké nedostatky mají současné jazykové modely? Jakým způsobem se dá takovým nedostatkům předejít?
Začnu odzadu – předejít se jim dá velmi těžko, ale všichni na tom pracují. Nejzávažnějším nedostatkem je, že ty modely velmi věrohodně říkají nepravdu, když to shrnu jednoduše. Ne vždycky, dokonce bych řekl, že dneska ty kvalitní modely už jsou většinou poměrně spolehlivé, ale pořád najdete výstupy, které prostě nejsou pravda nebo nějakým způsobem pravdu ohýbají. Ať už je to způsobeno tím, že člověk je k tomu přiměl svými vstupy a otázkami, anebo to prostě dělají samy od sebe a nikdo úplně neví proč.
‚Bojím se.‘ Zaměstnanci OpenAI varují, že firma s umělou inteligenci nebude zacházet odpovědně
Číst článek
Druhá vada, kterou ty modely mají, je, že neumí vysvětlit své uvažování. Na tom se teď pracuje, takže některé už to trochu umí a dokážou nám říct, proč nám řekly to, co nám řekly, a dokážou k tomu najít třeba i informační zdroje. Ale zase – někdy ty zdroje nejsou vlastně pravda. Oni si je prostě vymýšlí.
Na to se používá slovo „halucinace“, o kterém se trochu spekuluje, jestli je to dobrý termín, protože aby automat halucinoval, je trochu zvláštní, ale jde o to, že prostě ty výstupy jsou buď částečně, nebo zcela nepravdivé.
Poslední věc, která je důležitá, je, že samozřejmě nechceme, aby ty modely nějakým způsobem porušovaly právo na ochranu osobních údajů, což může být spojeno s daty, na kterých byly natrénovány, protože se tam třeba nachází informace, která se dostane ven, i když nepřímo.
Na to se také dbá, ale úplně vyloučit se to nedá, takže bude potřeba se zaměřit i na tuhle věc, která se samozřejmě v Evropě velmi hlídá a je potřeba, aby ty modely všechna opatření, která v Evropě platí, respektovaly.
Už v tiskové zprávě jste zmiňoval jako jeden z plusů těch modelů, že budou vyhovovat evropské regulaci. Víte dnes o tom, že by ji např. OpenAI, který stojí za ChatGPT či DeepSeek nějakým způsobem porušovaly?
Ona ta regulace sice už platí, ale ještě se bude muset dotáhnout, jak přesně se bude specifikovat a jakým způsobem budou muset firmy dokazovat, že té regulaci podléhají. My samozřejmě na tohle cílíme.
Podmínka projektu byla, že modely, které uděláme, samy nesmí tu regulaci porušovat a musí umožňovat dalším firmám, aby jí vyhověly, to znamená, aby jejich produkty mohly fungovat na evropském trhu.
Za deepfake tři roky natvrdo. Podle návrhu italského zákona bude AI před soudem přitěžující okolnost
Číst článek
Otázka, jestli ChatGPT nebo jiné dneska dostupné modely či služby ta pravidla porušují, nebo ne, to úplně říct neumíme. Je také vidět, že každá země se na to tváří jinak. Víme, že třeba v Itálii jsou přísnější než jinde.
Jestli je to z hlediska ochrany osobních údajů nebo i nějakých jiných důvodů, to zatím není úplně jasné, ale můžu říct, je, že to, co my vyrobíme, prostě musí odpovídat normám. To je vlastně podmínka toho, že jsme na to dostali prostředky.
Dostupnější pro české firmy
Odborník z brněnského VUT Martin Fajčík pro server Lupa.cz uvedl, že současné jazykové modely jsou anglocentrické. Jak se to na nich projevuje?
To se projevuje tak, že data, na kterých se dneska modely trénují, jsou zhruba z poloviny v angličtině a většinou v americké angličtině. Nejde jen o jazyk, ale i o to, co je v tom jazyce napsáno, protože ty modely si to umí do jisté míry zapamatovat. Já řeknu příklad, který možná ty modely ne vždycky takhle špatně řeknou.
Představte si, že se česky zeptáte, kde máte podat daňové přiznání a místo, aby vám to řeklo adresu vašeho finančního úřadu, tak řekne, že se to má poslat do Texasu. Sice to řekne česky, protože ten model samozřejmě ví o češtině, ale protože mnohem víckrát viděl někde napsáno, kde se v Americe podává daňové přiznání, tak se vás bude snažit přesvědčit, že ho máte podat tam.
Proč AI někdy odpovídá nesmyslně? Jazykové modely pracují s čísly, ne se slovy, vysvětluje expert
Číst článek
To nemá co dělat s politikou, to je prostě dáno technologií, která za tím je. My budeme mít velkou snahu, aby se tohle nedělo. Znamená to, že se budeme muset zaměřit na jazyky, které těch dat mají málo a které by kvůli tomu mohly trpět podobným syndromem, že ten model vydoluje ze svých útrob, co se naučil na těch anglických textech, ačkoliv to neodpovídá ani fakticky, ani kulturně, ani věcně tomu, že se ptá někdo z jiné země jiným jazykem.
Jakým způsobem budou z této inciativy profitovat čeští uživatelé?
Především doufáme, že ty modely budou tu češtinu dělat lépe a i z hlediska, o kterém jsme mluvili předtím, to znamená i z lokálního a kulturního hlediska, než to dělají současné modely.
Samozřejmě tím, že ty modely budou zcela otevřené, tak by měly být dostupnější i pro české firmy, které by je chtěly používat pro svoje aplikace, ať už tady, ale i v evropském měřítku, protože v tom budou všechny evropské jazyky, dokonce i jazyky zemí, které by mohly v budoucnu přistoupit a další jazyky. Takže by to mělo svědčit firmám, které chtějí fungovat na evropském trhu a samozřejmě i v rámci Česka.