Otwarte dane badawcze

Czym są dane badawcze?

„Dane badawcze – dokumenty w formie cyfrowej, inne niż publikacje naukowe, które są gromadzone lub opracowywane w ramach działalności badawczo-naukowej i są wykorzystywane jako dowody w procesie badawczym bądź też są powszechnie akceptowane w środowisku naukowym jako konieczne do weryfikacji poprawności ustaleń i wyników badań”.

(DYREKTYWA PARLAMENTU EUROPEJSKIEGO I RADY (UE) 2019/1024 z dnia 20 czerwca 2019 r. w sprawie otwartych danych i ponownego wykorzystywania informacji sektora publicznego, art. 2, p. 9)

W dokumencie Narodowego Centrum Nauki pt.:  „Wytyczne dla wnioskodawców do uzupełnienia PLANU ZARZĄDZANIA DANYMI w projekcie badawczym” czytamy: „(…) pod pojęciem „dane” NCN rozumie zarówno dane zebrane i dotąd nieprzetworzone, jak i dane wytworzone i poddane analizie, inne niż publikacje naukowe. Definicja ta obejmuje wszystkie możliwe formaty, zarówno cyfrowe, jak i niecyfrowe (np. próbki, wypełnione kwestionariusze, nagrania dźwiękowe, itd.).”

Rodzaje danych badawczych:

- surowe – zebrane, ale nie przeanalizowane;

- obserwacyjne – przechwytywane w czasie rzeczywistym (np. odczyty czujników, dane telemetryczne, wyniki anonimowych ankiet, badania fokusowe), często unikalne, ponieważ nie można ich „odzyskać”;

- eksperymentalne – uzyskane ze sprzętu laboratoryjnego w kontrolowanych warunkach, powtarzalne, ale często bardzo kosztowne (np. sekwencje genów, spektroskopia, odczyty pola magnetycznego);

- dane symulacji – zebrane podczas testów badających rzeczywiste lub teoretyczne systemy (np. modele klimatyczne, ekonomiczne, systemy inżynieryjne);

- dane pochodne / skompilowane – wyniki analiz danych, albo dane agregowane z różnych źródeł. Powtarzalne, ale ich pozyskanie może być bardzo kosztowne (bazy danych, teksty, modele 3D, dane bibliometryczne);

- dane referencyjne – poprawione lub organiczne zbiory danych, zwykle recenzowane, publikowane i selekcjonowane (dane GUS, struktury chemiczne, bazy danych z sekwencjami genów).

Czym są otwarte dane badawcze?



Otwarte dane badawcze (Open Research Data) to dane, uzyskane w procesie badawczym i użyte w pracy naukowej, do których każdy ma bezpłatny dostęp. Można je ponownie wykorzystywać, modyfikować i udostępniać z poszanowaniem prawa.

- Otwieranie danych pozwala innym naukowcom powtórzyć badania lub je zweryfikować albo dowieść, że dane są prawdziwe;

- Otwarte dane są gromadzone i udostępniane w repozytoriach danych badawczych;

- Nie wszystkie zbiory danych mogą posiadać otwarty charakter, w szczególności dotyczy to danych osobowych, komercjalizacji wyników badań oraz bezpieczeństwa narodowego;

- Informacja o istnieniu danych zawsze powinna być publicznie dostępna, co pozwala uniknąć duplikacji badań.

Co to jest FAIR Data?

FAIR Data to dane badawcze, które zostały opisane, przechowywane i publikowane zgodnie z międzynarodowym standardem. Zasady FAIR Data służą jako wytyczne dla umożliwienia ponownego wykorzystania danych naukowych w wyraźnie opisanych warunkach, zarówno przez ludzi, jak i przez maszyny. Dane, które ze względu na ochronę prywatności nie mogą zostać opublikowane całkowicie, mogą spełniać wszystkie zasady FAIR.

FAIR jest akronimem od:

Findable - łatwo znajdowane i wyszukiwane.
Accessible - dostępne dla wszystkich.
Interoperable - interoperacyjne, tak aby można było je połączyć z innymi danymi.
Reusable - wielokrotnego użytku.

Więcej o FAIR Data: Inicjatywa FAIRdata.

Czym jest Plan Zarządzania Danymi (DMP)?

Plan zarządzania danymi (Data Management Plan – DMP) określa, w jaki sposób dane badawcze mają być zarządzane podczas projektu badawczego, jak i po jego zakończeniu.

Instytucje i programy finansujące badania naukowe coraz częściej wymagają od naukowców przedstawienia DMP na etapie składania i oceny wniosków grantowych (np. Horyzont 2020, Horyzont Europa). Plan zarządzania danymi powinien zawierać informacje:

- jakie dane zostaną wytworzone lub zebrane (format i typ plików, liczba danych),
- jak zostaną uporządkowane i opisane (metodologia, standardy, metadane),
- kwestie etyczne i prawne (własność intelektualna, prawa autorskie, dane niejawne),
- w jaki sposób dane zostaną udostępnione (jak, kiedy, komu),
- które dane będą przechowywane długoterminowo (kwestia sposobu przechowywania i ochrony danych).

Polecane strony:
DMPTool - narzędzie online służące tworzeniu planów zarządzania danymi; zawiera przykłady takich planów.
DMPonline - kreator planów zarządzania danymi badawczymi.

Przykłady planów (DMP):
Example DMPs and guidance

Plan zarządzania danymi badawczymi

Checklista (lista kontrolna)
Na liście znajdują się zagadnienia wspólne dla wszystkich planów zarządzania danymi badawczymi.
Szczegółowość opisu i jego zakres zależą od prowadzonych badań i od wymagań grantodawcy, jednak zastanowienie się nad odpowiedziami na te pytania, ułatwi szybsze przygotowanie planu zarządzania danymi badawczymi.

(Na podstawie DCC -DMP checklist)

Dane podstawowe, opis projektu

Informacje podstawowe opisujące plan:

- Tytuł projektu
- Nazwisko i imię kierownika projektu / autora planu
- Dane kontaktowe
- Numer projektu / grantu / ID
- Podsumowanie projektu opisujące cel zbierania danych
- Opis instytucjonalnej polityki zarządzania danymi badawczymi
Gromadzenie danych

Do rozważenia:

- Jakie dane będą zbierane podczas badań?
- Jak będą gromadzone?
- Czy istnieją już dane, które można ponownie wykorzystać?
- Jakich standardów lub metodologii trzeba użyć, aby wytworzyć dane?
- Czy wybrane formaty i oprogramowania umożliwiają udostępnianie i długotrwałe przechowywanie danych?
- Strukturyzacja oraz nazewnictwo folderów i plików, w których przechowywane będą dane.
- Jakie procesy będą zastosowane, aby zapewnić odpowiednią jakość danych?
Dokumentacja
i metadane

Do rozważenia:

- Jakie informacje są niezbędne, aby dane mogły być odczytane i zinterpretowane w przyszłości?
- Ile czasu i wysiłku będzie potrzeba na stworzenie dokumentacji pomocniczej, czy jest odpowiedni ich zasób (czasu i wysiłku).
- Jaka dokumentacja i metadane będą opisywać dane?
- W jaki sposób powstanie ta dokumentacja i metadane?
- Które standardy metadanych będą użyte i dlaczego te?
Zagadnienia etyczne i prawne

Należy rozważyć wszystkie zagadnienia prawne i etyczne wiążące się z pozyskiwaniem danych w projekcie.
Ważne są zwłaszcza ograniczenia udostępniania danych:

- Czy są wymagane zgody na udostępnianie i przechowywanie danych?
- Jak będzie chroniona tożsamość uczestników badań? (np. czy będzie zastosowana anonimizacja?)
- Czy udostępnianie danych zostanie obłożone embargiem lub ograniczone (np. z powodu publikacji lub ubiegania się o patent)?
- Jaka będzie zastosowana licencja na wykorzystywanie danych?
Przechowywanie danych
i tworzenie kopii zapasowych

Do rozważenia:

- Gdzie będą przechowywane dane, jaki ma to wpływ na tworzenie kopii zapasowych, dostęp do danych i ich bezpieczeństwo?
- Czy jest miejsce na przechowywanie danych, czy potrzebne są fundusze na pokrycie kosztów przechowywania danych?
- Kto będzie odpowiedzialny za tworzenie backupów i odzyskiwanie danych?
- Jakie są zagrożenia dla bezpieczeństwa danych i jak nimi zarządzać?
- W jaki sposób będzie zapewniony bezpieczny dostęp do danych dla wszystkich współpracowników?
Selekcja danych i ich ochrona

Należy określić, które dane będą długotrwale przechowywane i chronione.

- Należy wybrać najlepszy sposób przechowywania danych (wybór repozytorium).
- Które dane należy zachować, a które zniszczyć z powodów wynikających z umów i regulacji prawnych?
- Jakie jest możliwe do przewidzenia inne zastosowanie badawcze dla zgromadzonych danych?
- Które dane powinny zostać zachowane i potencjalnie udostępnione?
- Jaki jest plan długoterminowego przechowywania bazy danych?
- Jaki jest koszt przygotowania, przechowywania i udostępniania danych?
Udostępnianie danych

Które dane będą udostępniane i w jaki sposób? Wybór metody zależy od wielu czynników, takich jak: typ, rozmiar, złożoność i wrażliwość danych.
Do rozważenia:

- W jaki sposób będą cytowane dane?
- Z kim będą współdzielone dane i na jakich warunkach?
- Kiedy będzie otwarty dostęp do danych?
- Czy wymagane są jakieś ograniczenia dotyczące udostępniania danych?
- Jakie działania będą podejmowane, aby pokonać lub zminimalizować ograniczenia w dostępie?
- Jak potencjalni użytkownicy dowiedzą się o danych?
Obowiązki
i zasoby danych

Należy przypisać role i obowiązki dla wszystkich działań związanych z zarządzaniem danymi.
Do rozważenia, co jest potrzebne, aby zrealizować plan zarządzania danymi. Koszty zazwyczaj można wpisać do wniosku grantowego, ale muszą być jasno określone i uzasadnione.

- Kto jest odpowiedzialny za zrealizowanie Planu ZDB, oraz za jego sprawdzenie i poprawienie?
- Jak zostaną rozdzielone obowiązki między partnerami w projekcie badawczym?
- Jakie zasoby są potrzebne, aby zrealizować plan?
- Czy wymagana jest dodatkowa wiedza specjalistyczna lub sprzęt?

Licencjonowanie danych badawczych

Zgodnie z zasadą „Reusable” dane powinny być opatrzone licencją określającą warunki korzystania z danego zbioru danych. Przed wyborem licencji należy upewnić się jaka jest polityka naszej instytucji odnośnie udostępniania danych. Dodatkowo, agencje finansujące badania mogą wymagać stosowania określonych licencji. Dobrą praktyką jest stosowanie gotowych (standardowych) licencji, które pozwalają zaoszczędzić czas potrzebny na stworzenie własnego, nowego typu licencji. Określenie licencji na jakiej udostępniane będą dane powinno odbyć się już na etapie tworzenia Planu Zarządzania Danymi.

Przykładami otwartych licencji są licencje Creative Commons (CC) oraz licencje wolnego oprogramowania takie jak GNU General Public License version 2 (GPLv2) i licencja Massachusetts Institute of Technology (MIT license).

Creative Commons to międzynarodowy projekt, w ramach którego opracowano szereg licencji gotowych do wykorzystania, co znacznie ułatwia proces udostępniania. Obecnie funkcjonują licencje CC w wersji 4.0, poniżej znajduje się ich lista wraz z krótkim omówieniem. Przy ich stosowaniu należy pamiętać, że powstały one z myślą o utworach, a nie zbiorach danych, dlatego należy upewnić się, czy wybrana licencja pasuje do naszego zbioru.

Uznanie autorstwa - CC BY

Zezwala innym na rozpowszechnianie, zmienianie i tworzenie nowych utworów bądź zbiorów w oparciu o licencjonowany zasób, także w celach komercyjnych. Warunkiem jest oznaczenie autorstwa tego zbioru danych.

Uznanie autorstwa-Na tych samych warunkach - CC BY SA

Pozwala na kopiowanie, modyfikowanie oraz rozpowszechnianie zbioru pod warunkiem oznaczenia autorstwa i udostępniania danych zależnych na tych samych warunkach.

Uznanie autorstwa-Bez utworów zależnych - CC BY ND

Umożliwia innym ponowne wykorzystanie danych w dowolnym celu pod warunkiem oznaczenia autorstwa. Licencja nie pozwala jednak na modyfikowanie zbioru.

Uznanie autorstwa-Użycie niekomercyjne CC BY NC

Pozwala innym kopiować, modyfikować i rozpowszechniać zbiór danych tak długo, jak oznaczone będzie jego autorstwo oraz wykorzystywany będzie w celach niekomercyjnych.

Uznanie autorstwa-Użycie niekomercyjne-Na tych samych warunkach CC BY NC SA

Pozwala innym kopiować, modyfikować i rozpowszechniać dane przy zastrzeżeniu że zarówno oryginalne jak i zmodyfikowane zbiory zostaną użyte w celach niekomercyjnych oraz że będą rozpowszechniane na takiej samej licencji.

Uznanie autorstwa-Użycie niekomercyjne -Bez utworów zależnych CC BY NC ND

Jest to licencja najbardziej restrykcyjna spośród sześciu licencji CC. Pozwala jedynie na pobieranie zbioru danych i dzielenie się nim z innymi, pod warunkiem określenia autorstwa. Zbiór nie może być modyfikowany ani wykorzystywany komercyjnie.

Repozytoria i wyszukiwarki

W 2021 r. Prorektor ds. Nauki dr hab. prof. AWF Paweł Tomaszewski podpisał porozumienie z ICM UW w sprawie założenia kolekcji  danych badawczych zdeponowanych przez pracowników naukowych AWF Warszawa w repozytorium RepOD.

Repozytorium Otwartych Danych Badawczych RepOD działa od 2015. Prowadzone jest przez zespół Platformy Otwartej Nauki Interdyscyplinarnego Centrum Modelowania Matematycznego i Komputerowego Uniwersytetu Warszawskiego. Jest pierwszym polskim repozytorium otwartych danych badawczych, powstałym z myślą o wszystkich naukowcach i instytucjach zainteresowanych udostępnieniem swoich zasobów. Każdy zdeponowany w nim zbiór danych opatrzony zostaje numerem DOI. Korzystanie z repozytorium nie wiąże się z żadnymi opłatami dla użytkownika końcowego. Od połowy 2020 roku repozytorium działa w oparciu o zmodyfikowane oprogramowanie Dataverse, opracowane w ramach projektu Dziedzinowe Repozytoria Otwartych Danych Badawczych. Przewodnik po RepOD

Inne polecane repozytoria  i wyszukiwarki danych badawczych:

Azon (Atlas Zasobów Otwartych Nauki) - platforma informacyjna, powstała w ramach projektu "Aktywna platforma informacyjna e-scienceplus.pl" w której udostępniono już kilkadziesiąt tysięcy zasobów nauki. Gromadzi, przetwarza i udostępnia zasoby nauki i dane badawcze z zakresu nauk technicznych, inżynieryjnych, medycznych, farmaceutycznych, szpitalnictwa, lecznictwa uzdrowiskowego tego regionu.

BRENDA - zbiór danych na temat enzymów dostępny dla społeczności naukowej na całym świecie. Enzymy są klasyfikowane zgodnie z wytycznymi Komitetu Nazewnictwa Międzynarodowej Unii Biochemii i Biologii Molekularnej. Baza zawiera około 5 tys. różnych enzymów i obejmuje informacje biochemiczne i molekularne dotyczące między innymi klasyfikacji, nazewnictwa, reakcji, swoistości, parametrów funkcjonalnych, występowania, struktury enzymu

FAIRsharing - wyszukiwarka standardów i metadanych powiązana z repozytoriami dziedzinowymi

Joint Research Centre Data Catalogue - katalog danych Joint Research Centre (JRC) -  wewnętrznej jednostki naukowej Komisji Europejskiej,  zatrudniającej naukowców do prowadzenia badań w celu zapewnienia niezależnych opinii naukowych i wsparcia polityk Unii Europejskiej.

Mendeley Data  - to otwarte repozytorium danych badawczych, w którym naukowcy mogą przesyłać i udostępniać swoje dane badawcze. Zestawy danych mogą być udostępniane prywatnie między osobami, a także publikowane w celu udostępniania ich światu - każdy zestaw danych ma DOI i można go cytować.

Polska Platforma Medyczna - Agregator 8 uczelni i instytutów medycznych. Można w nim poszukiwać nie tylko informacji o badaczach, medykach, ich publikacjach czy surowych danych badawczych, ale także o projektach, grantach czy aparaturze. Agregator i wewnętrzne systemy działają na znanym już w Polsce oprogramowaniu (typu CRIS) Politechniki Warszawskiej OMEGA-PSIR.

Portal Otwartych Danych Unii Europejskiej – uniwersalny punkt dostępu do danych publikowanych przez instytucje, agencje i inne organy Unii Europejskiej. Portal jest głównym elementem unijnej strategii otwartych danych.

Repozytoria rekomendowane przez czasopismo Nature

WHO - Zestawy danych w oparciu o globalne priorytety zdrowotne. Organizacja zapewnia łatwe wyszukiwanie i zapewnia wgląd w tematy wraz ze zbiorami danych.

www.re3data.org (Registry of Research Data Repositories) – wyszukiwarka repozytoriów gromadzących dane badawcze

Zenodo - Repozytorium CERN i OpenAIRE.

Przydatne linki

Materiały o danych badawczych na stronie Platformy Otwartej Nauki

Wytyczne dla wnioskodawców do uzupełnienia PLANU ZARZĄDZANIA DANYMI w projekcie badawczym

Kursy dla naukowców i data stewardów, dotyczące zarządzania danymi badawczymi

Aby zobaczyć kursy, należy zastosować warunki filtrowania:

Kategoria:  Systemy dla nauki i szkolnictwa wyższego

Organizator: Uniwersytet Warszawski

Kursy, webinary, szkolenia

Nagrania webinarów na kanale YouTube Narodowego Centrum Nauki na temat danych badawczych w ujęciu dziedzinowym.

Webinary są organizowane przez NCN na podstawie zlecenia Ministra Edukacji i Nauki dot. krajowej koordynacji partnerstwa European Open Science Cloud w latach 2022–2023. Zaproszeni eksperci omawiają istotne dla danej dziedziny zagadnienia związane z zarządzaniem danymi badawczymi w projektach naukowych, m.in. proces tworzenia planu zarządzania danymi oraz dostępne rozwiązania i narzędzia przydatne w pracy z danymi, np. zaufane repozytoria.

Szczególnie polecamy Państwa uwadze:

Webinarium „Otwarte dane badawcze w polityce i praktyce NCN”, 

prowadząca: Natalia Galica, Główny specjalista ds. Otwartej Nauki, NCN

Webinarium „Zarządzanie danymi badawczymi w naukach medycznych, farmaceutycznych i o zdrowiu

prowadzący: Szymon Kubik, Uniwersytet Jagielloński Collegium Medicum i dr Jakub Rusakow, Gdański Uniwersytet Medyczny


Kursy z zarządzania danymi badawczymi dla naukowców i data stewardów, przygotowane przez ekspertów z Platformy Otwartej Nauki, działającej w Interdyscyplinarnym Centrum Modelowania Matematycznego i Komputerowego Uniwersytetu Warszawskiego na zlecenie Narodowego Centrum Nauki, dostępne na platformie Navoica. Uczestnictwo w kursach jest bezpłatne i kończy się otrzymaniem zaświadczenia.

Zapisy na kursy do 30 kwietnia 2024.

Zarządzanie danymi badawczymi dla naukowców – kurs na poziomie podstawowym

Zarządzanie danymi badawczymi dla naukowców – kurs na poziomie średnio zaawansowanym

Zarządzanie danymi badawczymi dla data stewardów – kurs na poziomie podstawowy

Zarządzanie danymi badawczymi dla data stewardów – kurs na poziomie średnio zaawansowanym

Kursy dostępne na platformie do 31 maja 2024.


Data stewartami dla AWF Warszawa są: Pani dr Anna Katarzyna Cygańska i Pani Karolina Kierońska-Olszewska