Przygotowanie danych badawczych do udostępnienia

Kiedy pozyskaliśmy już dane zgodnie z zaplanowanym procesem badawczym oraz przyjętą metodologią, powinniśmy zdecydować, czy chcemy oraz czy możemy je udostępnić. Zanim to jednak zrobimy warto wykonać poniższe kroki:

1. Selekcja

Nie wszystkie dane muszą zostać udostępnione. Dobierając zbiory danych do archiwizacji warto kierować się takimi czynnikami jak:

wymagania agencji finansujących badania naukowe,
wartość naukowa danych badawczych,
wyjątkowość – warto sprawdzić czy dane nie duplikują się z innymi istniejącymi już zbiorami danych,
możliwość replikacji wyników badań – czy dane zawierają wszystkie parametry umożliwiające powtórzenie eksperymentu,
kwestie ekonomiczne – jakie koszty wiążą się z zarządzaniem i przechowywaniem danych i czy są one uzasadnione.

Dane badawcze nie muszą być idealne, mogą np. zawierać luki w pomiarach wynikające z czynników zewnętrznych. Ważne jest, aby zaznaczyć takie braki i opisać z czego wynikały.

2. Usunięcie danych wrażliwych

Czyli danych umożliwiających identyfikację badanych osób.

Anonimizacja – polega na przekształceniu danych osobowych w sposób uniemożliwiający przyporządkowanie poszczególnych informacji do określonej lub możliwej do zidentyfikowania osoby.
Pseudonimizacja – to przetworzenie danych tak, by nie można ich było przypisać osobie, której te dane dotyczą, bez użycia dodatkowych informacji.

Podstawową cechą odróżniającą pseudonimizację i anonimizację jest odwracalność. Anonimizacja jest procesem nieodwracalnym, pseudonimizacja zaś jest odwracalna.

3. Wybór formatu plików

Dane powinny zostać opublikowane w ogólnodostępnym formacie, który nie wymaga komercyjnego oprogramowania i wykorzystuje standardowe kodowanie (ASCII, UTF-8). Warto również zastanowić się, jakie formaty plików funkcjonują w naszej dyscyplinie, tak aby użytkownicy po pobraniu zbioru danych nie byli zmuszeni do ich dodatkowej konwersji, która może prowadzić do utraty jakości danych.

Formaty plików:

Text, Documentation, Scripts: XML, PDF/A, HTML, Plain Text
Still Image: TIFF, JPEG 2000, PNG, JPEG/JFIF, DNG (digital negative), BMP, GIF
Geospatial: Shapefile (SHP, DBF, SHX), GeoTIFF, NetCDF
Graphic Image:
raster formats: TIFF, JPEG2000, PNG, JPEG/JFIF, DNG, BMP, GIF
vector formats: Scalable vector graphics, AutoCAD Drawing Interchange Format, Encapsulated Postscripts, Shape files
Cartographic: Most complete data, GeoTIFF, GeoPDF, GeoJPEG2000, Shapefile
Audio: WAVE, AIFF, MP3, MXF, FLAC
Video: MOV, MPEG-4, AVI, MXF
Database: XML, CSV, TAB

4. Nadanie odpowiednich nazw

Przy nadawaniu nazw folderom oraz plikom warto zadać sobie pytanie: Jakie nazwy plików i jaka ich struktura byłyby dla mnie najbardziej użyteczne, gdybym sam chciał ponownie je wykorzystać? Co powinny zawierać nazwy, aby bezproblemowo można było odnaleźć konkretny zestaw danych? Dobrą praktyką w nazewnictwie plików jest, aby ich nazwy miały charakter opisowy (odzwierciedlający zawartość pliku).

Podstawowe zasady organizacji plików:

organizacja badań musi być spójna z ich nazewnictwem,
kontrola wersji plików,
struktura katalogów, konwencje nazewnictwa plików,
struktura plików – użyj tej samej struktury do tworzenia kopii zapasowych,
zachowanie spójności – używanie tego samego formatu dla wszystkich plików w projekcie, w tym zestawów danych oraz plików zip lub tar.

Przykłady:
Niepowtarzalny indentyfikator, nazwa/akronim projektu
Liczba Pi
(Drawing number format): Pi#_Section#-xxxxiii; np. jeśli Pi wynosi 123456 to nazywamy 1234567__13-0001, 1234567_13-0002
(Non-drawing numer format): Pi=123456, plik nazywamy 123456_0001.pdf
Współrzędne lokalizacji
Typ danych
Numer wersji
Typ pliku

powinno używać się tylko cyfr, liter i znaków podkreślenia,
nie powinno używać się znaków specjalnych, myślników, spacji, znaków stop,
daty powinny mieć standardowy format np. DDMMYYYY,
numeracja sekwencyjna powinna pozwalać na wzrost i zawierać wiodące zera, np. jeżeli jest to 100 plików, nazwy powinny zaczynać się od 001 do 100.

5. Wersjonowanie

Czyli kontrola wersji plików, to sposób na śledzenie zmian w procesie bądź w zestawach danych. Szczególnie ważne jest zapisywanie wersji jeśli w projekcie pracuje więcej niż jedna osoba. Pamiętaj:

zaznaczaj każdą zmianę,
śledź zmiany w plikach,
dobrą praktyką jest używanie konwencji w nazewnictwie plików, np. nagłówki plików,
można używać oprogramowania do kontroli wersji (SVN, Git).

6. Opatrzenie datasetów odpowiednim opisem w postaci metadanych

Dane powinny zostać opisane w taki sposób, aby można je było zindeksować, wyszukać i ponownie wykorzystać.

Czy wiesz, że...

Niektóre zbiory danych wymagają edycji i czyszczenia. Błędy w zbiorach danych mogą dotyczyć m.in. pisowni czy gramatyki. Mogą także zdarzyć się błędy dotyczące wartości nominalnych (terminy używane wielokrotnie). Identyfikatory dla obiektów lub kontekstów również powinny być wolne od błędów („nr katalogu” czy „miejsce #”). Jeżeli potrzebujesz narzędzia, które pomoże Ci „oczyścić” zebrane dane, możesz korzystać np. z OpenRefine.

Istnieją także narzędzia do masowej zmiany nazw plików:

Renamer – Mac, paid
PSRenamer – Linux, Mac, Windows, free
den4bReNamer – Linux, Mac, Windows, Portable, free/paid

Przygotowanie danych badawczych do udostępnienia | Politechnika Gdańska

Treść strony