Co jsou otevřená data, to už víte z našeho rozhovoru s Petrem Panoškou. Pro připomenutí – jsou to data, která jsou dostupná, svobodná a jsou strojově čitelná. V momentě, kdy v České republice vypukla epidemie COVID-19, začali jsme mimo webové aplikace pracovat také na otevřených datových sadách, která se tohoto onemocnění přímo dotýkají. Článek na téma sdílení těchto datasetů, který jsme napsali ve spolupráci s mnoha kolegy, byl publikován v recenzovaném vědeckém časopisu PLOS One.
Jak jsou publikována otevřená data?
Za tvorbou každé datové sady je proces několika událostí. V článku se dozvíte podrobně o každé z nich.
Návrh konceptu a struktury dat
Schválení návrhu, zda je vůbec možné takovou sadu vyprodukovat
Zprocesování a extrakce dat z registrů, analýza, validace
Tvorba datasetu, popis metadat
Validace vytvořeného datasetu
Publikace datasetu v Národním katalogu otevřených dat.
Jak je to s dostupností dat?
Data, která jsou sbírána v rámci Národního zdravotnického informačního systému, nejsou vždy publikovatelná v primární podobě. Pokud data obsahují jakékoliv osobní údaje, nelze je zveřejnit bez jakéhokoliv zpracování. Můžeme tedy rozlišit tři kategorie dat:
Dostupná primární data
Zpracovaná primární data
Data vyžadující interpretaci
Jak už názvy napovídají, v první kategorii jsou data, která nevyžadují žádné zásahy, jelikož neobsahují žádné osobní údaje. V druhé kategorii je nutné zpracování dat, protože by mohlo dojít ke snadné identifikaci konkrétní osoby. To je samozřejmě nežádoucí. U dat publikovaných v tomto režimu je proto předpoklady: dodržování standardizované metodiky (sjednocení datového formátu, popis metadat, publikování v centrálním katalogu), dohled expertů při tvorbě (znalost domény zdravotnictví, zástupci z týmů data managementu, datové analýzy a vývojového týmu) a schvalování. Třetí kategorií jsou data, která nemohou být zveřejněna bez kontextu nebo interpretace. Proč? Můžeme se pak dostat do situace, kdy bez znalosti konkrétní problematiky může dojít k dezinterpretaci. Pro konkrétní příklady si můžete poslechnout první část záznamu z konference NZIS Open 04/2022. Ředitel ÚZIS ČR Ladislav Dušek zde uvádí příklady identifikace dané osoby na základě dat i dezinterpretace související s obsazeností lůžek během COVID-19 a očkováním na toto onemocnění.
Proces přípravy, validace a publikace dat COVID-19
V článku se dozvíte detailní informace o technologiích a formátech datových sad. Dlouhodobým cílem na ÚZIS ČR ve spolupráci s MZ ČR je publikování všech dostupných dat z vybraných registrů. Momentálně byly ale upřednostněny datové sady o COVID-19. Pokud vás zajímá konkrétní proces sdílení těchto datasetů – od přípravy, přes validaci a publikaci, jste tu správně a pokračujte na celý článek.
Spoluautoři
Článek je výsledkem spolupráce napříč několika týmy.
Martin Komenda, Jiří Jarkovský, Daniel Klimeš, Petr Panoška, Ondřej Šanca, Jakub Gregor, Jan Mužík, Matěj Karolyi, Ondřej Májek, Milan Blaha, Barbora Macková, Jarmila Rážová, Věra Adámková, [ ... ], Ladislav Dušek