Hajič: S vývojem jazykových modelů Evropa začala pozdě. Ale díky tomu má data a může se na to vrhnout

EU chce mít svůj vlastní velký jazykový model. Bude se jmenovat OpenEuroLLM a na jeho vývoji se podílí dvacet podniků, výzkumných institucí a superpočítačových center z celé Evropy. „Měl by umět všechny evropské jazyky, a to ve vyšší kvalitě než běžné modely, které přišly z USA nebo z Číny,“ říká pro Český rozhlas Plus vedoucí projektu Jan Hajič. Model má umět i jazyky spojenců Unie, třeba Norska, nebo obchodních partnerů, jako jsou Čína a Indie.

Interview Plus Praha 16:09 30. března 2025 Sdílet na Facebooku Sdílet na Twitteru Sdílet na LinkedIn Tisknout Kopírovat url adresu Zkrácená adresa Zavřít

Jan Hajič se zabývá vývojem jazykových modelů | Foto: Věra Luptáková | Zdroj: Český rozhlas

Hajič uznává, že evropský vývoj přichází se zpožděním po velkých projektech Googlu nebo OpenAI. Vnímá to jako nevýhodu, ale zároveň i jako výhodu, protože výzkumníci mohou čerpat ze zkušeností svých kolegů.

Přehrát

00:00 / 00:00

Poslechněte si celý rozhovor s Janem Hajičem z Matematicko-fyzikální fakulty Univerzity Karlovy

„Za tu dobu se posunuly jak technologie, které jsou velmi často k dispozici jako takzvané open source, to znamená, že je můžeme volně používat. A za druhé dnes máme mnohem více textů v dobré kvalitě,“ popisuje vědec.

„Je samozřejmě velká výhoda, že máme data a můžeme se rovnou vrhnout na výrobu jazykových modelů,“ dodává.

Blokování dat

OpenEuroLLM by měl být otevřený a měl by se vyhýbat cenzuře a předsudkům. To znamená, že nebude trénován na textech, které jsou neetické nebo obsahují nepřesné či zavádějící informace, ujišťuje Hajič.

„Filtrování na úrovni dat nejde udělat úplně stoprocentně. Modely se nejprve vyrobí a pak na to jsou evaluační metody, kdy se bude zjišťovat, jak moc jednoduché je ten model přimět, aby dělal něco neetického,“ přibližuje.

22:43

Umělá inteligence je největší výzvou v historii lidstva. Její regulace je nutná, říká výzkumník

Číst článek

Cílem projektu je vyrobit základní model, na který později naváže sesterská iniciativa, jež naučí model interagovat a adaptuje jej na specifické obory.

Hlavním problémem je jednak nedostatečná kapacita dostupných datových center, ale také blokování obsahu některými weby.

„Data, která jsou momentálně blokovaná pro použití v umělé inteligenci, jsou obvykle ta kvalitnější data z velkých nakladatelství, která tomu rozumějí a blokování provádějí,“ podotýká Hajič. „Data, která používáme, toto respektují, a tím pádem budeme moci být otevření a ukazovat, na jakých datech jsme model dělali,“ vysvětluje.

Není čas na slepé uličky

Komunita vědců zabývající se umělou inteligencí je v Česku podle Hajiče silná. A pro projekt je důležité, že iniciativa vznikla od jednotlivých podniků a výzkumníků, protože zastřešující instituci, která by se mohla ve vývoji AI angažovat, v Česku nemáme.

„Je to proto, že u nás ani v Evropě není dostatečná kapacita. S tím, co máme k dispozici, velký model nevyrobíte,“ přiznává Hajič. „Iniciativa tak vznikla zdola. Oslovili mě z Německa, z Finska a chtěli jsme tam mít lidi, kteří mají zkušenost s opravdu velkými modely,“ doplňuje.

3:37

Vědci v Brně vyvíjejí systém, který odhalí dyslexii. Eye-tracker umí sledovat pohyb očí při čtení

Číst článek

Při posuzování projektu je z hlediska evropské politiky důležitý i ekologický rozměr technologie, která je kvůli potřebě chlazení velmi energeticky náročná. Výhodné je zejména partnerství s finskými institucemi, které využívají nízkých teplot a chladných řek, aby zátěž snížily.

Ke spolupráci výzkumníci oslovili i řadu firem, některé z nich odmítly. Seznam odborníků spolupracujících na projektu se ale ještě může rozšiřovat. Důležitá bude hlavně znalost velkých komerčních modelů, míní expert.

„To, jak modely rostou, není jenom o přidávání výpočetní kapacity. Nefunguje to úplně stejně, proto je zkušenost cenná,“ přibližuje Hajič. „Není na světě mnoho lidí, kteří mají zkušenost s tak velkými modely. Takže se budeme snažit, abychom znalostí mohli využít a vyvarovali se chyb, protože při obrovské kapacitě, kterou na to potřebujeme, není na mnoho slepých uliček čas,“ uzavírá Hajič.

Jak výzkumníci získávají data pro model? A mohou hodnoty tvůrců ovlivňovat podobu výsledného modelu? Dozvíte se v záznamu celého rozhovoru v úvodu článku.

Šárka Fenyková, esta Sdílet na Facebooku Sdílet na Twitteru Sdílet na LinkedIn Tisknout Kopírovat url adresu Zkrácená adresa Zavřít

iRozhlas

Hajič: S vývojem jazykových modelů Evropa začala pozdě. Ale díky tomu má data a může se na to vrhnout

Blokování dat

Není čas na slepé uličky

Čeká nás Divoký západ s umělou inteligencí. Evropa by měla vyvinout řídicí systém, vyzývá odborník

Mohlo by vás zajímat

‚Rusko nemůže rozhodovat o svobodě Ukrajiny.‘ V Den nezávislosti jí Carney slíbil pomoc za víc než miliardu

Utopíme tě na lžičce vody aneb Realita reálného socialismu

‚Každý dům je hrozbou.‘ Izrael srovnává Pásmo Gazy se zemí, demolice stojí 600 milionů korun za měsíc

OVĚŘOVNA: Evropští lídři v Bílém domě na chodbě neseděli. Co má taková falešná fotografie sdělit?

Technologie

Pozor na falešné nabídky na sociálních sítích. Blokátor reklamy nemusí být zárukou, radí Antivirus

Děti jsou závislé na sociálních sítích. Co s tím? ‚Je třeba zavést regulaci,‘ míní expertka

OVĚŘOVNA: Evropští lídři v Bílém domě na chodbě neseděli. Co má taková falešná fotografie sdělit?

Nejčtenější za posledních 24 hodin

Nejčtenější za poslední 3 dny

Nejčtenější za poslední týden

Nejnovější články

ONLINE: ‚Nejsem si vědom ústupků Ruska,‘ tvrdí Zelenskyj. O setkání s Putinem chce jednat s USA

Pozor na falešné nabídky na sociálních sítích. Blokátor reklamy nemusí být zárukou, radí Antivirus

Rakouská sbírka na odminování Ukrajiny nemá účet. Banky ji kvůli neutralitě nechtějí přijmout

Jsme české lvice,věří volejbalistky. Ani výhra nad USA nemusí znamenat postup ze skupiny

Vybrala školné a studentům napsala, že výuka končí. Soukromá vysoká škola čelí trestnímu oznámení

Stačilo! bylo kolem výročí okupace úplně rozparáděné

Aktuální témata

Doporučujeme

Hajič: S vývojem jazykových modelů Evropa začala pozdě. Ale díky tomu má data a může se na to vrhnout

Blokování dat

Není čas na slepé uličky

Mohlo by vás zajímat

‚Rusko nemůže rozhodovat o svobodě Ukrajiny.‘ V Den nezávislosti jí Carney slíbil pomoc za víc než miliardu

Utopíme tě na lžičce vody aneb Realita reálného socialismu

‚Každý dům je hrozbou.‘ Izrael srovnává Pásmo Gazy se zemí, demolice stojí 600 milionů korun za měsíc

OVĚŘOVNA: Evropští lídři v Bílém domě na chodbě neseděli. Co má taková falešná fotografie sdělit?

Technologie

Pozor na falešné nabídky na sociálních sítích. Blokátor reklamy nemusí být zárukou, radí Antivirus

Děti jsou závislé na sociálních sítích. Co s tím? ‚Je třeba zavést regulaci,‘ míní expertka

OVĚŘOVNA: Evropští lídři v Bílém domě na chodbě neseděli. Co má taková falešná fotografie sdělit?

Nejčtenější za posledních 24 hodin

‚Zjistila jsem to náhodou.‘ Slovenská národní galerie tiše stáhla výstavu, kterou kritizovala Šimkovičová

Kráva má v sobě mír. Když mezi ně přijdu, zbrzdí mě to, vypráví na Zemi živitelce herec a chovatel Roden

ANO a SPD by dle modelu STEM měly 100 mandátů, na většinu by to nestačilo. Pomoci by mohlo Stačilo!

OVĚŘOVNA: Evropští lídři v Bílém domě na chodbě neseděli. Co má taková falešná fotografie sdělit?

Proražený zátaras a kamion napříč silnicí. Policie za dvě hodiny zastavila tři auta ukradená v Německu

‚Rusko nemůže rozhodovat o svobodě Ukrajiny.‘ V Den nezávislosti jí Carney slíbil pomoc za víc než miliardu

Nejnovější články

ONLINE: ‚Nejsem si vědom ústupků Ruska,‘ tvrdí Zelenskyj. O setkání s Putinem chce jednat s USA

Pozor na falešné nabídky na sociálních sítích. Blokátor reklamy nemusí být zárukou, radí Antivirus

Rakouská sbírka na odminování Ukrajiny nemá účet. Banky ji kvůli neutralitě nechtějí přijmout

Jsme české lvice,věří volejbalistky. Ani výhra nad USA nemusí znamenat postup ze skupiny

Vybrala školné a studentům napsala, že výuka končí. Soukromá vysoká škola čelí trestnímu oznámení

Stačilo! bylo kolem výročí okupace úplně rozparáděné

Aktuální témata

Doporučujeme