Psychometrik Hynek Cígler: Státní maturita nenaplňuje standardy pedagogického testování
Očima psychometrika, tedy odborníka na vývoj testů, jsou státní maturity tragické selhání. Úroveň jejich statistického zpracování by byla přijatelná naposledy v 60. letech 20. století.
Tvorba takzvaných rozhodných didaktických testů (anglicky large‑scale high‑stakes assessment tests), mezi které patří i česká státní maturita, není jednoduchou ani levnou záležitostí. Jejich vývoj zahrnuje kromě relativně snadno představitelných nákladů na distribuci a administraci testů, sběr, skenování a vyhodnocování dat nebo údržbu počítačových systémů také celou řadu nákladů skrytých. Mezi ty patří například rozsáhlé pilotáže a ověřování testových otázek před zařazením do ostrých testů, sestavení a koordinace zpravidla poměrně velkého multidisciplinárního týmu, zabývajícího se nejen psaním otázek, ale i jejich ověřováním a statistickými analýzami.
O autorovi
Mgr. Hynek Cígler, Ph.D. je výzkumník a vysokoškolský pedagog působící na Katedře psychologie Fakulty sociálních studií Masarykovy univerzity.
Zaměřuje se na metodologické a statistické aspekty psychologie, zejména na psychometriku, tedy vývoj nástrojů pro měření psychických charakteristik. Kromě toho se zabývá matematickými schopnostmi a způsobem, jakým si děti osvojují koncept čísel.
Přínos státní maturity by na druhou stranu mohl být obrovský. Kromě ověřování znalostí maturantů a udělování maturitního vysvědčení takový standardizovaný maturitní test skýtá potenciál pro využití při přijímacím řízení na vysoké školy; pro studenty navíc zdarma namísto drahých, komerčně vydávaných testů. Hlavně však jde o skvělý zdroj nesmírně cenných analytických dat, kterými zdaleka není jen „žebříček“ středních škol. Díky testům lze sledovat vývoj vzdělanosti, tedy změnu ve znalostech a schopnostech absolventů v čase.
Je možné též ověřovat efektivitu různých vzdělávacích stylů a směrů, například ověřit přínos Hejného metody pro efektivní výuku matematiky. Data mohou být použita pro zkoumání dopadů socio‑ekonomického zázemí studentů na jejich znalosti, kontrolu vzdělávání ve vyloučených lokalitách a podobně. Ano, k těmto a řadě dalších účelů se podobná data ve světě běžně využívají. Existují tisíce odborných studií jak z oblasti teoretického výzkumu, tak i aplikovaných analýz pro účely konkrétních politických rozhodnutí.
Česká republika do vývoje státních maturit investovala miliardu korun, roční náklady se posledních zhruba deset let pohybují kolem 300 milionů. Přes tuto enormní částku, která je sedmnáctkrát vyšší než na Slovensku a v přepočtu na jednoho maturanta odpovídá zhruba čtyřem a půl tisícům korun, leží data prakticky zcela ladem. Nevím o žádné věrohodné studii, která by je byla využívala.
Příčinou je v první řadě to, že Cermat data vůbec neposkytuje, a to ani odborníkům pro výzkumné účely. I kdyby však data byla dostupná, výše nastolené otázky by s jejich pomocí nemohly být úspěšně zodpovězeny. Přestože se mi to těžko říká, problémem testů produkovaných Cermatem není jejich obsah, dílčí chyby v zadání a podobně. Tím skutečným problémem je fakt, že po odborné – psychometrické – stránce jsou testy produkované Cermatem na naprosto mizerné úrovni. Analýzy, které Cermat produkuje, byly totiž zastaralé již v sedmdesátých letech.
Přitom by úplně stačilo, aby byl maturitní test vyvíjen v souladu s aktuálními standardy a zcela běžnými a snadno dostupnými psychometrickými postupy. Není třeba vymýšlet cokoli nového.
Psychometrika: Jak se tvoří testy?
Každý asi tuší, že testové otázky pro státní maturity píšou učitelé, didaktici konkrétních předmětů a další odborníci na jednotlivá témata. Jen málo lidí ale ví, že kromě nich se na vývoji didaktických testů podílí – tedy měli by – i psychometrikové. Psychometrika je vědním oborem, který se přímo zabývá tvorbou znalostních i psychologických testů, dotazníků a podobně; zároveň zkoumá, jak a zda vůbec je možné různé psychické charakteristiky měřit.
Přestože zadání vypadá banálně, ve skutečnosti psychometrika používá pokročilé statistické nástroje, ostatně v posledních pár dekádách zažívá boom v souvislosti s rozvojem výpočetní techniky, která umožňuje realizovat některé náročnější analýzy. Vedle statistiky se snaží zajistit také férovost testů, standardizované vytváření testových otázek, vhodné způsoby jejich formulace a podobně. Celkově jde o rozsáhlý obor s vlastními odbornými časopisy, monografiemi a profesními organizacemi, který je tradičně rozkročený napříč psychologií, sociologií, pedagogikou, matematickou statistikou a informatikou.
Psychometriku, často skrytou pod názvy jako „quantitative methods“, „educational research“, „data analysis“ a podobně, lze studovat na řadě zahraničních univerzit, v České republice však nikoli. Navíc u nás obor má jen velmi nepatrnou tradici. Výjimku tradičně tvoří psychologie; například na Fakultě sociálních studií Masarykovy univerzity navazují dva povinné psychometrické kurzy na dva kurzy statistiky a další asi tři metodologické předměty, i zde však jde spíše o minoritní součást studia. Psychometriku v nějaké pokročilejší formě nevyučují ani pedagogické fakulty a obory, které ji nezbytně potřebují právě pro velké didaktické testy. Zřejmě i proto nemáme dostatek tuzemských odborníků na testování.
Pro Cermat by se jako nejvýhodnější jevilo najmout zahraniční odborníky. Celý obor je mezinárodní a anglický, potíž je však v tom, že kvalitních psychometriků ochotných věnovat se aplikovanému výzkumu je málo i globálně. Měsíční mzda u začínajícího juniorského psychometrika na světovém trhu práce začíná zhruba na 80 tisících korun za měsíc, u seniorského a zkušeného odborníka v soukromém sektoru se může přehoupnout přes částku 200 tisíc. Vzhledem k celkovým nákladům na maturitu by výdaje na jednoho či dva špičkové psychometriky byly zanedbatelné a státní maturita by mohla vypadat zcela jinak.
Víme, co má maturita testovat?
„Pokud je cílem středního školství pouze předat teoretické a v praxi neužitečné znalosti, pak je zcela pochopitelné, že maturita cílí na to stejné, a po žácích vyžaduje memorování mnoha informací.“
Má test měřit znalosti, nebo dovednosti? Jak velkou roli má hrát příprava a jak velkou přirozená inteligence studentů? Má test ověřovat spíše určité znalosti, nebo schopnost je aplikovat, či dokonce kreativně vytvořit něco zcela nového, jako například v maturitní slohové práci? Víme, co má vlastně maturita testovat?
Často se ozývají hlasy, že maturita ověřuje nesmyslné znalosti. Namísto porozumění se zaměřuje na nabiflované znalosti, které student stejně hned zapomene. Místo důležitých dovedností se testy skládají ze „školských teoretických znalostí“, které v životě nebudeme potřebovat.
S touto výhradou můžeme, anebo taky nemusíme souhlasit. Abychom však užitečnost maturity mohli posoudit, je nezbytné se zamyslet nejen nad tím, jaký je účel maturity, ale hlavně jaký je účel celého středního školství. Pokud je totiž cílem středního školství pouze předat teoretické a v praxi neužitečné znalosti, pak je zcela pochopitelné, že maturita cílí na totéž a po žácích vyžaduje memorování mnoha informací. Obdobně se může rovněž lišit účel středních odborných škol a gymnázií a je pak otázkou, zda dosažení tohoto účelu spolehlivě ověří tentýž test napříč všemi typy škol. Učivo střední školy by se navíc nemělo v žádném případě přizpůsobovat maturitě. Naopak, maturita by měla ověřovat, zda studenti dosáhli stanovených cílů.
Mimoto dosažení těchto cílů není zodpovědností pouze studentů, ale i školy. Maturita by neměla hodnotit pouze výkony individuálních studentů, ale též to, zda škola dokázala k úspěšné maturitě připravit dostatečný podíl studentů. V zájmu naší společnosti rozhodně není to, že u maturitní zkoušky v Ústeckém kraji neuspěje přes 50 procent maturantů. Tento výsledek není v žádném případě výhradní vinou těchto studentů – buď je školy špatně připravovaly, nebo tito studenti neměli vůbec studovat, nebo je špatně celý systém středního školství a státních maturit.
Epidemie covid-19 jako příležitost pro politická rozhodnutí založená na vědeckých důkazech
Číst článek
Jako psycholog a psychometrik se neodvažuji předjímat, co by mělo být cílem středoškolského studia. Jde o otázku pro jiné odborníky, pro pedagogy, didaktiky jednotlivých předmětů, politiky. Odpověď ostatně není jednoznačná a věřím, že pokud byste se zeptali dvacítky středoškolských učitelů z gymnázií, průmyslovek, odborných učilišť a konzervatoří, dostali byste přinejmenším desítku různých odpovědí – přestože na všech těchto dvaceti školách dostávají studenti tytéž maturitní testy. Přitom teprve po vyjasnění účelu středních škol v dnešním světě lze uvažovat nad konkrétní podobou státních maturit – nebo nad jejich zrušením.
Jejich podoba totiž může být zcela odlišná. Namísto známky mohou studenti dostávat pouze určitý počet bodů, který posléze mohou využít zaměstnavatelé či vysoké školy namísto přijímacího řízení. Při maturitním testu nebo jeho určité části mohou mít studenti k dispozici internet a namísto prostých znalostí lze ověřovat schopnost je dohledat, ověřit a propojit. Variant je spousta, ale klíčové je říct si, co chceme otestovat.
Kde je problém se státní maturitou?
„Není jasné, proč jsou některé otázky za více bodů než jiné. Cermat navíc dodatečně, tedy po proběhnutí termínů státní maturity, upravuje počty bodů za jednotlivé úlohy, aby se celkové průměrné počty bodů příliš nelišily napříč roky. To rozhodně není dobrá praxe; je skoro s podivem, že zatím Cermat nebyl terčem žaloby.“
V posledních měsících se státním maturitám začala věnovat skupina kolem informačního centra o vzdělávání EDUin. Například Jiří Münich v několika článcích podrobně popisuje problémy klasické testové teorie, kterou používá Cermat namísto teorie odpovědi na položku, která je mezinárodním standardem pro vyhodnocování těchto testů. S Münichovými výhradami plně souhlasím a nebudu je proto opakovat. Zaměřím se na prostý výčet problémů státních maturit a testů Cermatu obecně, které mají přímý a nesporný dopad na kvalitu testování a které by přitom bylo velmi jednoduché „opravit“.
- Nejasné skórování testových otázek
Není jasné, proč jsou některé otázky za více bodů než jiné. Cermat navíc dodatečně, tedy po proběhnutí termínů státní maturity, upravuje počty bodů za jednotlivé úlohy, aby se celkové průměrné počty bodů příliš nelišily napříč roky. To rozhodně není dobrá praxe; je skoro s podivem, že zatím Cermat nebyl terčem žaloby na to, že se počty bodů dodatečně mění na základě subjektivního rozhodnutí nějaké komise, čímž de facto subjektivně rozhodují o udělení či neudělení státní maturity konkrétním studentům.
Data neumožňují srovnání napříč termíny
Každoročně jsme svědky zpráv v médiích, jak se maturanti během let zhoršili či zlepšili – jde však o nesmyslné závěry, které se nezakládají na datech. Reálnou příčinou zhoršení či zlepšení mohly být znalosti maturantů, anebo – prozaičtěji – obtížnost testu. Přitom zajištění stejné náročnosti testu napříč termíny a ročníky je možné s relativně nízkými náklady.
Testy vytvářené Cermatem neumožňují žádné srovnání znalostí studentů napříč roky ani termíny. Jakékoli tvrzení Cermatu, že se studenti zlepšují či zhoršují, je proto nutně nepravdivé. Snadno pochopitelnou příčinou je i již zmíněné dodatečné upravování bodového hodnocení jednotlivých úloh tak, aby se výsledné počty bodů z celého testu příliš nelišily napříč roky. To je zcela nepřijatelné.
Příkladem mohou být letošní testy, které se lišily od těch loňských v mnoha různých ohledech, v některých předmětech došlo k nárůstu a v jiných k poklesu neúspěšných maturantů, což Cermat interpretuje jako meziroční změnu. Ve skutečnosti má tato čísla Cermat plně k dispozici a rozhoduje o počtu úspěšných a neúspěšných maturantů na základě svévolného, subjektivního a zcela netransparentního posouzení.
„Přesnost“, s jakou Cermat vyvažuje náročnost různých termínů testů, lze odhadnout pomocí jednotné přijímací zkoušky na čtyřleté střední školy z roku 2017, jednoho z mála testů s dostupnými daty. Přestože se oba řádné termíny konaly v rozmezí dnů, druhý termín byl výrazně snazší. V případě studentů, kteří dorazili pouze na jeden z termínů, byl průměrný rozdíl zhruba dva body. U studentů, kteří dorazili na oba termíny, dokonce tři body. Mimo to byla u druhého termínu výrazně menší variabilita – jinými slovy, počty bodů jednotlivých studentů se pohybovaly blíže průměru než body v prvním termínu. Cermat tyto nuance v žádném případě nezohledňuje, prostě jen spočítá procentuální úspěšnost a v případě přijímací zkoušky i percentil.
- Data neumožňují vyhodnocení efektivity různých škol
Jakkoli jsou žebříčky škol z mnoha různých důvodů problematické, lze snadno získat informace o tom, které školy naučí své žáky „víc“. Stačí srovnat výkon studentů v jednotné přijímací zkoušce s jejich výkonem u maturity. Bohužel, není vůbec jisté, zda Cermat tato data uvádí do souvislosti. Pokud ano, výsledky si nechává pro sebe.
Nejsou známé parametry testů
Jedním z běžných nároků na podobné testy, jako je státní maturita, je naprostá transparentnost. Nejde jen o to, že jsou známé jednotlivé testové otázky a klíč správných odpovědí, podstatné je znát takzvané psychometrické parametry testu. Tedy jeho přesnost, kvalitu výběru testových otázek, informace o tom, zda jednotlivé položky dobře rozlišují mezi více a méně připravenými studenty a podobně. Poskytování těchto informací minimálně odborné veřejnosti je přitom základní povinností každého tvůrce podobných testů, jako takové je ostatně zakotvené ve Standardech pro pedagogické a psychologické testování, kterými by se takové testování mělo řídit, či ve směrnicích Mezinárodní komise pro testování.
Ministerstvo školství, které zamítlo odvolání mého kolegy proti neposkytnutí těchto analýz, pak doslova uvádí, že žádné takové analýzy – tedy „technické zprávy, psychometrické analýzy, statistické reporty“ a podobně – nejsou k dispozici. To je naprosto hrubá a neodpustitelná chyba tvůrců testu a celého Cermatu.
Nutno přitom podotknout, že data z jednotné přijímací zkoušky, která jsou výjimečně dostupná, přitom nevyznívají čistě v neprospěch Cermatu. Přesnost měření stejně jako kvalita výběru položek – nakolik je z nich možno soudit z dostupných dat – je uspokojivá. Bohužel tato data neobsahují veškeré důležité informace pro adekvátní posouzení testů, a navíc jde jen o jediný termín přijímací zkoušky.
Cermat neposkytuje data ani pro výzkum
Je pochopitelné, že řadu pokročilejších analýz Cermat neprovádí. Ostatně ve většině zemí tuto roli plní univerzity a jednotliví výzkumníci, kteří využívají data ze státních testů pro své výzkumné studie. Bohužel Cermat žádná data neposkytuje. Opakovaně data neposkytl mně a mému kolegovi, kteří jsme o ně žádali podle zákona o svobodném přístupu k informacím, s odvoláním na ochranu osobních dat maturantů. Ministerstvo školství jeho závěry potvrdilo, ačkoliv v ten stejný rok zřejmě alespoň nějaká data Cermat poskytl jiným výzkumníkům, a zároveň na internetu byla zcela veřejně dostupná prakticky totožná data z jednotné přijímací zkoušky.
Jakkoli chápu a podporuji ochranu osobních dat, minimálně pro výzkumné účely je zcela nezbytné data poskytovat. Kromě toho je dnes řada postupů, jak zachovat veškeré charakteristiky dat a zároveň je anonymizovat takovým způsobem, aby nebylo možné jednotlivé individuální studenty jakkoli identifikovat.
Jak z toho ven?
Nehledě na to, zda je státní maturita obsahově v pořádku a zda ji vůbec potřebujeme, mělo by být samozřejmé, že testy jsou po odborné stránce „v pořádku“ a odpovídají mezinárodně uznávaným standardům. Testy produkované Cermatem však vzbuzují dojem, jako když si chce nadšený kutil sestavit doma v garáži závodní speciál.
Tento závěr se mi nepíše snadno, a to i kvůli tomu, že neznám pozadí a případné důvody, proč se Cermat uchýlil k těm postupům, ke kterým se uchýlil. Na druhou stranu se domnívám, že v tuto chvíli není jiné cesty než tyto závažné potíže medializovat. Jen já osobně jsem se v minulosti několikrát snažil více či méně vstřícnější formou s Cermatem spolupracovat: komunikoval jsem s předchozím ředitelem Jiřím Zíkou, snažil jsem se umožnit našim studentům získat psychometrickou praxi v Cermatu, zval jsem zástupce Cermatu na odbornou konferenci, já nebo kolegové jsme opakovaně žádali o data nebo přinejmenším odborné analýzy.
Přitom by stačilo, kdyby Cermat uskutečnil několik jednoduchých kroků:
- Začal spolupracovat s odbornou veřejností, zapojil ji do širší diskuse o podobě testování.
- Začal poskytovat data a veškeré analytické podklady. Když už ne zcela veřejně, tak alespoň na vyžádání pro účely konkrétních, jasně specifikovaných výzkumných projektů.
- Zajistil skutečné odborníky na testování, kteří například v minulosti působili v podobných institucích v zahraničí.
- Začal používat psychometrické a statistické postupy, které odpovídají 21. století.
Je potřeba mít na zřeteli, že maturitní či jednotná přijímací zkouška bude na zcela mizerné úrovni, dokud si Cermat neuvědomí, že odborná veřejnost není nepřítel a že spolupráce s ní může být užitečná.
Cíl totiž máme společný: dostupné kvalitní testy, které nepoškozují maturanty, ale férově jim poskytují informaci o jejich schopnostech a dovednostech. Kvalitní testy, které mohou využívat vysoké a střední školy při přijímacích řízeních, díky čemuž uchazeči ušetří poplatky komerčním firmám. A konečně kvalitní analytická data, která může využít Český stát pro evidence-based rozhodování o našem vzdělávacím systému.
Rozpočtu na vzdělávání chybí nejen miliardy, ale hlavně srozumitelnost
Petr Šabata
Důchodová reforma? Plány jsou odvážné, realita skončí u země
Julie Hrstková
Evropa se musí připravit na celní válku
David Klimeš
Německá ztráta stability na plné obrátky
Kateřina Smejkalová