Zarządzanie danymi badawczymi | Politechnika Gdańska

Treść strony

Zarządzanie danymi badawczymi

Zasady FAIR (Findable, Accessible, Interoperable, Reusable) to zestaw wytycznych, które mają za zadanie pomóc naukowcom pozyskiwać, opisywać i porządkować dane badawcze w taki sposób, że każda osoba "z ulicy" będzie w stanie takie dane odnaleźć, nie będzie miała wątpliwości co do ich identyfikacji, a jednocześnie będzie dokładnie wiedziała w jakim zakresie takich danych może ponownie użyć.

Po raz pierwszy zasady FAIR sformułowano w 2016 r. i chociaż główne założenia każdej z zasad nie uległy zmianie, to jednak szczegółowa interpretacja zmienia się zgodnie ze zmianami społecznymi i technologicznymi dokonującymi się w komunikacji naukowej. Każdą z zasad można rozpatrywać w odniesieniu do dwóch rodzajów odbiorców danych – ludzi oraz zautomatyzowanego oprogramowania, które co raz częściej wyręcza ludzi w przeszukiwaniu i analizowaniu rosnącej góry danych. Warto też podkreślić rosnącą rolę metadanych, ponieważ to na nich opierają się wszelkie procesy przeszukiwania i selekcjonowania zasobów elektronicznych, zarówno przez ludzi, jak i maszyny.

(Meta)dane powinny być:

Findable

(Odnajdywalne) - mają przypisany unikalny i trwały identyfikator (np.: DOI), który jednoznacznie identyfikuje dataset.

  • Dla człowieka: Dane są łatwe do znalezienia dzięki unikalnym identyfikatorom (np. DOI) i bogatym metadanym.
  • Dla maszyny: Metadane są czytelne dla maszyn, co umożliwia automatyczne przeszukiwanie zbiorów danych oraz serwisów.
Accessible

(Dostępne) - możliwe jest tworzenie różnych ról użytkowników i mechanizmów weryfikacji użytkowników i kontrolowanego dostępu do danych. Dostęp do danych badawczych powinien być jak najbardziej otwarty i jak najbardziej ograniczony w przypadku danych wrażliwych.

  • Dla człowieka: Po znalezieniu wymaganych danych, użytkownik musi wiedzieć, jak można je uzyskać, co może obejmować informacje o ewentualnej autoryzacji.
  • Dla maszyny: zarówno metadane jak i dane są do pobrania za pomocą ich identyfikatora, przy użyciu standaryzowanego protokołu komunikacyjnego (np. http lub ftp), który powinien być otwarty, bezpłatny i powszechnie możliwy do wdrożenia.
Interoperable

(Interoperacyjne)

  • Dla człowieka: zawierają słownictwo specjalistyczne dla danej dziedziny i są opisywane z odniesieniami do innych (meta)danych, aby można było zrozumieć relacje między danymi.
  • Dla maszyny: (meta)dane używają formalnego, dostępnego, wspólnego i szeroko stosowanego języka/standardu/schematu do udostępniania danych.
Reusable

(Nadające się do ponownego użycia) - dane muszą być opatrzone metadanymi nadającymi im niezbędny kontekst badawczy oraz informacją o warunkach i zakresie ponownego ich użycia (np. Licencją CC).

  • Dla człowieka: meta(dane) zawierają wiele rodzajów informacji kontekstowych, takich jak cel naukowy, okoliczności w jakich je zgromadzono, czy też rodzaj używanego sprzętu i oprogramowania, czyli wszystkie te informacje, które umożliwią użytkownikowi podjęcie decyzji o włączeniu danych do własnych badań.
  • Dla maszyny: (Meta)dane są bogato opisane za pomocą wielu atrybutów, są ustrukturyzowane i udokumentowane zgodnie z obowiązującymi standardami i formatami metadanych, dzięki czemu mogą zostać uwzględnione w zautomatyzowanych procesach filtrowania i selekcjonowania.

Co jest niezwykle istotne to to, że zasady FAIR stosujemy do wszystkich pozyskiwanych danych, a nie tylko takich, które zostały przeznaczone do udostępnienia, np. w otwartym repozytorium. Każdą informację naukową pozyskaną w trakcie badań traktujemy jak, jakby miała być ponownie wykorzystana przez kogoś, kto nie brał w nich udziału, a więc jedyna jego wiedza o takich danych będzie pochodziła z ich opisu.

Przykład:
  1. Dane znajdujące się na katedralnym serwerze, nazwane i uporządkowane w sposób wykluczający możliwość istnienia dwóch plików o takiej samej nazwie, gdzie każdy folder dodatkowo zawiera plik readme z informacjami o tym kto i za pomocą jakiego sprzętu takie dane wytworzył.
  2. Dane udostępnione w multidyscyplinarnym repozytorium danych badawczych, zawierające pliki o takich nazwach jak file_1, file_2 itp., a dodatkowo zawierające w metadanych sprzeczne ze sobą informacje o prawie do ponownego wykorzystania.

Które dane są bardziej wiarygodne i mają większe szanse na ponowne wykorzystanie?

Oczywiście prawidłowa odpowiedź to przykład 1, ponieważ takie dane w momencie decyzji o ich udostępnieniu będą mogły od razu zostać włączone do nowych analiz. Fakt, że dane z przykładu 2 można bez problemu pobrać nie ma znaczenia, ponieważ brak istotnych kluczowych informacji, sprawia, że nie są one wiarygodne.

FAIRification

Zasady FAIR są na tyle ogólne, że często trudne jest stwierdzenie na ile dane, które gromadzimy i udostępniamy są rzeczywiście z nimi zgodne. W związku z tym powstało i jest rozwijany szereg narzędzi oraz serwisów umożliwiających w miarę obiektywną ocenę zarówno pojedynczych datasetów jak i całych repozytoriów.

The FAIR Data Maturity Model
 

The FAIR Data Maturity Model to zestaw wskaźników mierzących stopień zgodności z zasadami FAIR pojedynczego datasetu, ale również repozytorium danych. Wskaźniki te opierają się na istniejących standardach i dobrych praktykach oraz obejmują różne aspekty zarządzania danymi, takie jak metadane, identyfikatory, licencje, formaty, protokoły, słownictwo i repozytoria. Zostały one opracowane tak, aby można je było zastosować w różnych obszarach nauki oraz do zróżnicowanych rodzajów danych (np. dane ilościowe, jakościowe, tekstowe, audio-wizualne itp.).

FAIR Data Maturity Model może być używany jako narzędzie do samodzielnej oceny stopnia zgodności z zasadami FAIR zarówno przez repozytoria do oceny serwisów, jak i użytkowników indywidualnych weryfikujących swoje lub czyjeś datasety. Ponadto może być stosowane jako narzędzie oceny przez finansujących, wydawców, recenzentów lub twórców polityki,

Model Dojrzałości Danych FAIR został opracowany przez FAIR Data Maturity Model Working Group, która działa w ramach organizacji RDA. Grupa została utworzona w 2018 r. a jej członkami było łącznie ponad 200 uczestników z całego świata. Grupa opublikowała swoje ostateczne sprawozdanie i zalecenia w lipcu 2020 r., po serii konsultacji i testów pilotażowych.

Główne cele Modelu Dojrzałości Danych FAIR to:

  • Dostarczenie uniwersalnych metod dla oceny oraz zapewnienia zgodności danych oraz serwisów je deponujących z zasadami FAIR.
  • Wspieranie wszystkich produkujących, gromadzących, archiwizujących oraz udostępniających dane w implementacji zasad FAIR, poprzez udzielanie wskazówek oraz gromadzenie doświadczeń oraz informacji zwrotnych dotyczących wdrażania FAIR w praktyce.
  • Wspieranie użytkowników i konsumentów danych w znajdowaniu i uzyskiwaniu dostępu do danych oraz pomoc w ich selekcji wg kryterium zgodności z zasadami FAIR.
  • Wspieranie inicjatyw oraz polityk promujących stosowanie zasad FAIR, poprzez dostarczenie raportów i danych o poszczególnych serwisach dotyczących stopnia kompatybilności świadczonych usług z FAIR.

Model Dojrzałości Danych FAIR składa się z 14 podstawowych i 10 wskaźników opcjonalnych. Każdy z nich ma swój opis, uzasadnienie, docelową wartość, sposób pomiaru, poziom zgodności (od niskiego do wysokiego) oraz przykłady wdrożenia. Wskaźniki te są grupowane w cztery kategorie, odpowiadające czterem zasadom FAIR: Findable, Accessible, Interoperable, Reusable.

F-UJI
 

FAIRsFAIR Research Data Object Assessment Service

Dostęp: https://www.f-uji.net/index.php

To narzędzie online służące ocenie datasetów w oparciu o metryki opracowane w ramach projektu FAIRsFAIR. "F" w nazwie odnosi się do akronimu FAIR, natomiast "UJI" w języku malajskim oznacza "sprawdzać". Ma ono stanowić przyjazne i szybkie wsparcie przy implementacji zasad FAIR podczas gromadzenia, przechowywania oraz udostępniania danych badawczych.

Najważniejsze informacje o narzędziu:

  • Ocena stopnia zgodności datasetu z zasadami FAIR odbywa się na podstawie możliwie jak największej ilości danych dostępnych dla odczytu maszynowego, czyli używane są zarówno informacje wyciągnięte z samych metadanych, jak i z serwisów i baz do których prowadzą zawarte w danych odnośniki (np. Identyfikatory PID).
  • Dopóki nie zostaną sformułowane jasne i dostosowane do odczytu maszynowego kryteria oceny zgodności z FAIR dla danej dyscypliny czy też obszaru badawczego, F-UJI ocenia datasety na podstawie ogólnodostępnych atrybutów i powszechnie wykorzystywanych schematów metadanych (np. dublin core, dcat, datacite, schema.org).
  • Do oceny zgodności z FAIR używane są zarówno informacje wyciągnięte z samych metadanych, jak i z serwisów i baz do których prowadzą zawarte w danych odnośniki (np. Identyfikatory PID).
  • Ograniczenie stanowi fakt, że jakość oceny jest bezpośrednio zależna od ustalenia jasnych kryteriów, które będą zrozumiałe dla oprogramowania testującego. Problem w tym, że takie kryteria nie zostały jeszcze w pełni opracowane dla wszystkich zasad FAIR.
  • Kod źródłowy narzędzia jest dostępny publicznie na otwartej licencji na Github, co umożliwia społeczności naukowej udział w jego rozwijaniu i udoskonalaniu.
FAIR Evaluation Services
 

Dostęp: https://fairsharing.github.io/FAIR-Evaluator-FrontEnd/#!/#%2F

FAIR Evaluator to narzędzie stworzone pod auspicjami FAIRsharing.org, w celu zapewnienia obiektywnego, zautomatyzowanego sposobu testowania zasobów (meta)danych w oparciu o Wskaźniki Dojrzałości Danych. Obecnie działa jako usługa demonstracyjna.

FAIR Evaluator to zarówno rejestr, jak i możliwość przeprowadzenia:

  • testów Wskaźników Dojrzałości; są to testy oceniające dojrzałość zasobu danych pod względem jego zgodności z zasadami FAIR,
  • zestawów wybranych Testów Wskaźników Dojrzałości zdefiniowanych przez społeczność naukową (np. w obrębie danej dyscypliny),
  • zbiorczej oceny zgodności z FAIR całego źródła danych, np. repozytorium na podstawie powyższych testów lub zestawów testów.
Self-Assessment Tool to Improve the FAIRness of Your Dataset
 

SATIFYD

Dostęp: https://satifyd.dans.knaw.nl/

To narzędzie do samooceny stworzone w DANS (Dutch national centre of expertise and repository for research data). Narzędzie to pokazuje, na ile weryfikowany zbiór danych jest zgodny z FAIR oraz jednocześnie dostarcza wskazówek, jak tę zgodność poprawić.

Narzędzie opiera się na ankiecie składającej się z 12 pytań dotyczących FAIR, Podczas odpowiadania na pytania, wynik dla każdej litery będzie wyświetlany pod każdą z nich. Im bardziej litery stają się "niebieskie", tym bardziej FAIR jest weryfikowany zbiór danych. Całkowity wynik jest podawany na końcu strony. Niektóre pytania są zadawane więcej niż raz (np. o metadane i standardy danych lub licencje użytkowania), ponieważ tematy te są istotne w więcej niż jednej literze.