Przechowywanie danych badawczych w trakcie realizacji projektu
Właściwe zarządzanie danymi badawczymi w trakcie trwania projektu stanowi kluczowy element zapewniający integralność, bezpieczeństwo i dostępność informacji naukowych. Podczas gdy zasady FAIR i długotrwała archiwizacja określają standardy ostatecznego udostępniania danych, aktywne przechowywanie wymaga szczegółowych protokołów operacyjnych.
Zasady przechowywania podczas projektu
- Reguła 3-2-1 – pozostaje złotym standardem ochrony danych badawczych. Każdy zestaw danych powinien istnieć w trzech kopiach: jedna kopia robocza oraz dwie kopie zapasowe przechowywane na różnych nośnikach. Co najmniej jedna kopia zapasowa musi znajdować się w lokalizacji geograficznie oddzielonej od głównego miejsca pracy. Istnieje oprogramowanie do kopii zapasowych, które automatyzuje proces tworzenia regularnych kopii. Narzędzia jak rsync, Bacula czy komercyjne rozwiązania oferują planowanie kopii, kompresję danych i weryfikację integralności.
- Kontrola wersji – wymaga systematycznego podejścia do śledzenia zmian. Każda modyfikacja danych powinna być dokumentowana z oznaczeniem daty, autorstwa i opisu wprowadzonych zmian. Systemy kontroli wersji jak Git oferują zaawansowane możliwości śledzenia historii zmian w plikach tekstowych i kodzie. Narzędzia kontroli wersji takie jak DVC (Data Version Control) umożliwia śledzenie zmian w dużych zbiorach danych, podczas gdy Git LFS (Large File Storage) rozszerza możliwości Git o obsługę plików binarnych.
- Hierarchia dostępu – określa poziomy uprawnień dla członków zespołu badawczego. Dane pierwotne powinny mieć ograniczony dostęp do odczytu, podczas gdy dane przetworzone mogą być dostępne dla szerszego grona współpracowników z uprawnieniami do edycji.
Nośniki przechowywania
- Pamięci lokalne – obejmują dyski SSD i HDD w komputerach badawczych. Dyski SSD zapewniają szybki dostęp do często używanych zbiorów danych, podczas gdy pojemne dyski HDD służą jako lokalne repozytoria dla większych kolekcji. Kluczowe znaczenie ma regularne monitorowanie stanu dysków oraz implementacja systemów RAID dla zwiększenia niezawodności.
- Serwery instytucjonalne i systemy plików sieciowych – serwery oferują centralne przechowywanie z profesjonalnym zarządzaniem kopii zapasowych. Uniwersytety i instytuty badawcze często udostępniają dedykowane przestrzenie serwerowe z gwarantowanymi parametrami dostępności i zabezpieczeń. Natomiast systemy plików sieciowych, takie jak NFS (Network File System) czy SMB/CIFS, umożliwiają współdzielenie przestrzeni dyskowej między wieloma stacjami roboczymi. Zapewniają one jednolity dostęp do danych dla całego zespołu badawczego przy zachowaniu centralnej kontroli uprawnień.
- Chmury obliczeniowe oraz platformy synchronizacji – chmury przedstawiają elastyczne rozwiązanie skalowalne zgodnie z potrzebami projektu. Platformy jak Amazon S3, Google Cloud Storage czy Microsoft Azure oferują różne klasy przechowywania dostosowane do częstotliwości dostępu do danych. Platformy synchronizacji obejmują rozwiązania typu OneDrive czy specjalistyczne narzędzia naukowe jak OSF (Open Science Framework). Automatyczna synchronizacja zapewnia aktualność kopii roboczych, podczas gdy historia wersji umożliwia przywracanie poprzednich stanów plików. W przypadku chmur czy platform synchronizacji należy zawsze uwzględnić kwestie prawne dotyczące lokalizacji serwerów, szczególnie przy danych osobowych, np. OneDrive na licencji "A1 for faculty" zapewnia, że pliki wysłane do tej usługi będą przechowywane na serwerach znajdujących się w granicach EU.
- Nośniki optyczne i taśmowe – zachowują znaczenie dla długoterminowej archiwizacji danych o niskiej częstotliwości dostępu. Nowoczesne napędy LTO oferują pojemności przekraczające 18 TB z okresu żywotności sięgającymi 30 lat przy właściwych warunkach przechowywania.
Skuteczne przechowywanie danych wymaga dostosowania strategii do specyfiki dyscypliny badawczej. Projekty generujące duże wolumeny danych obrazowych potrzebują szybkich systemów pamięci masowej, podczas gdy badania długookresowe wymagają niezawodnych mechanizmów długoterminowego przechowywania. Kluczowym elementem pozostaje dokumentacja wszystkich procedur przechowywania w planie zarządzania danymi. Określenie ról i odpowiedzialności członków zespołu, harmonogramów tworzenia kopii zapasowych oraz procedur odzyskiwania danych zapewnia ciągłość badań nawet w przypadku awarii systemów. Monitorowanie wykorzystania przestrzeni dyskowej i kosztów przechowywania umożliwia optymalizację zasobów. Regularne przeglądy zbiorów danych pozwalają identyfikować materiały nadające się do przeniesienia do tańszych klas przechowywania lub archiwizacji.
Centrum Informatyczne TASK, w ramach wsparcia naukowców z uczelni będących uczestnikami TASK przy realizacji projektów dotowanych z Narodowego Centrum Badań i Rozwoju, oferuje usługę NCNdata realizującą wymagania NCN odnośnie przechowywania i tworzenia kopii zapasowych podczas badań.