LibGuides: Hantering av forskningsdata: Datapublicering och långtidsbevaring

Att publicera (meta)data i enlighet med FAIR-principerna

Tänk på följande frågor när du öppnar och publicerar din forsknings (meta)data:

1. Hur beskriver och publicerar du metadata för dina forskningsdata?

Det rekommenderas starkt att använda Fairdata Qvain-metadataverktyget för att beskriva och publicera (meta)data. Qvain är en del av Fairdata-tjänsterna som erbjuds av Undervisnings- och kulturministeriet och CSC. Data som beskrivs och publiceras av Qvain överförs automatiskt till forskning.fi och Etsin (forskningsdatasökare, också en del av Fairdata-tjänsterna).

Du kan logga in på Qvain med ditt HAKA-konto, klicka på CREATE DATASET och fyll i blanketten. Se Qvain User Guide.

Det är genom metadata som dina forskningsdata blir tillgängliga och bedömda för eventuell nedladdning och återanvändning. Att skapa väl avvägda och detaljerade metadata är nyckeln till att göra data öppna, begripliga och återanvändbara.

Observera att även om du inte kan publicera och arkivera dina forskningsdata eftersom dina data innehåller t.ex. personlig information, känsliga personuppgifter eller konfidentiella data, kan du fortfarande publicera metadata för dina forskningsdata.

Creative Commons-licensen CC BY rekommenderas för publicerade (meta)data när så är möjligt.

2. Var öppnas och publiceras data? Forskningsdata arkiveras och öppnas i ett nationellt eller internationellt arkiv när så är möjligt.

Rekommenderade övriga arkiv inkluderar:
- Zenodo av OpenAIRE project och CERN.
- IDA - Research Data Storage Service, en del av Fairdata-tjänsterna. Läs instruktionerna om hur du Apply for IDA storage space.
- Aila av Finlands samhällsvetenskapliga dataarkiv (FSD). Du kan kontakta FSD via asiakaspalvelu.fsd@uta.fi för hjälp och råd.
Kolla specifika arkiv enligt datatyp i re3data.org, ett register över forskningsdatalagrar som täcker över 2000 arkiv.
Kriterier för att välja ett arkiv inkluderar:
- Välj ett arkiv som använder persistenta identifierare (t.ex. DOI, URN) för (meta)data.
- Ett arkiv som publicerar maskinläsbar metadata och använder en känd metadatastandard.
- Ett arkiv som ofta används av dina kollegor. Kolla också rekommendationerna från förlag, vetenskapliga samfund och finansiärer inom ditt område.
- Ett arkiv som låter dig välja användningsvillkoren och och internationellt standardiserade licenser enligt vilka data kan återanvändas, och anger dem tydligt som en del av metadata.
Definiera en lämplig tillgångsttyp (öppen, embargo eller begränsad) till forskningsdata baserat på uppgifterna, din forskningsprocess, behovet av skydd av affärshemligheter och andra konfidentiella uppgifter och immateriella rättighetsavtal, samt finansierare och förläggarnas krav.
Om dina data har ett långsiktigt värde, överväg att bevara dina data i Digital Preservation Service for Research Data. Se Långtidsbevaring av data nedan.

3. Vilken del av data öppnas och publiceras? Ska en del av uppgifterna raderas?

Anonymiserade data publiceras och arkiveras i ett arkiv för gemensamt bruk närhelst det är möjligt.
Enligt Dataskyddslag (1050/2018, § 4 (4)) och GDPR (art. 6 (1)(e)), om behandling av forskningsmaterial som innehåller personuppgifter samt av personuppgifter som ingår i deras metadata behövs för arkivändamål och behandlingen står i proportion till det mål av allmänt intresse som eftersträvas och den registrerades rättigheter, är det lagligt. Pseudonymiserade uppgifter är fortfarande personuppgifter. Begränsad tillgång kan användas som en åtgärd för att arkivera pseudonymiserade uppgifter. Forskningsdeltagarna behöver informeras om dina planer för dataarkivering i dataskyddsmeddelandet.

4. När är data tillgängliga? Behöver du lägga till en embargoperiod?

5. Vilken licens använder du för att öppna och publicera (meta)data? Licensiering är nödvändig för publiceringen av data. Det rekommenderas att använda Creative Commons CC BY-licensen när så är möjligt.

6. Organisera dina data med standardiserade och icke-proprietära dataformat, lämplig och konsekvent namngivning och versionskontroll. Se Dataformat och organisering.

7. Kom ihåg att registrera dina dataset i Haris.

FAIR-principerna

FAIR-dataprinciperna, formulerade Force11, beskriver centrala riktlinjer för god datahantering och öppen tillgång till forskningsdata. FAIR är en akronym som kommer från orden Findable, Accessible, Interoperable och Reusable.

FAIR-dataprinciperna kan formuleras som Findable+Accessible+Interoperatable=Reusable. Att göra data återanvändbara och återanvända och dra nytta av befintliga dataset är de grundläggande motiven för öppna data. En FAIR+R (FAIR+reproducible) metod argumenteras också för (Se Christophe Bontemps and Valérie Orozco. 2021. “Toward a FAIR Reproducible Research”, in Abdelaati Daouia and Anne Ruiz-Gazen (eds.) Advances in Contemporary Statistics and Econometrics. Springer International Publishing.)

FAIR är inte lika med öppen eller fri. Data kan vara stängda och betalas men ändå perfekt FAIR, medan data som är öppna och gratis ofta inte är FAIR och därmed betraktas som icke kostnadseffektiva och återanvändbara.

FAIR-dataprinciperna handlar främst om metadata som förekommer i nästan alla FAIR-principer. Det är genom metadata som dataset blir synliga, tillgängliga och bedömda för eventuell nedladdning och återanvändning. Att skapa väl avvägda och detaljerade metadata är nyckeln till att göra data öppna, begripliga och återanvändbara.

Det rekommenderas att använda Fairdata services som erbjuds av Undervisnings- och kulturministeriet och CSC. Tjänsterna inkluderar:

IDA, forskningsdatalagring och arkiv – säker lagring och arkivering av forskningsdata.
Qvain, forskningsmetadataverktyg – ett metadataverktyg för beskrivning och publicering av dataset.
Etsin, forskningsdatasets sökare för datahämtning – upptäck, få tillgång till och ladda ner forskningsdata från alla vetenskapsområden.
DPS, digital preservation service for research data – pålitligt bevarande av digital information i decennier eller till och med sekel framåt.

Läs mera:

Metadata och datadokumentation

Datadokumentation betyder att beskriva data, är data om data och ger information om vem, vad, när, var, varför, hur av dina data. Att investera tid i att dokumentera data gör det enkelt att förstå data för både andra och dig själv och minskar risken för falsk förklaring av data. Datadokumentation kan vara en readme-fil (läsbar för människor) och metadata (läsbara för datorer):

Readme-filer är textdokument (t.ex. i formatet .txt) som ger information om datafiler för att säkerställa att de tolkas korrekt. En readme-fil förklarar vilka data ett forskningsprojekt har, hur data skapades, var data kommer från, hur man kan tolka dem, vad förkortningarna betyder, vilken programvara som behövs för att använda data, hur data har modifierats, och kan innehålla information om titeln, skaparen, finansieraren, relevanta datum för datainsamling och publicering, lokalisering, metodik, ämne, filformat, filnamnsystem och mappstruktur, dataversion, licens och arkivet.

Skriv en readme-fil om dina data och datafiler. Lägg readme-filen på den mest uppenbara platsen i datafilmapparna för att säkerställa att den kan märkas och ses omedelbart.

Metadata är tekniska data som beskriver en forskningsdataset. När data görs FAIR spelar metadata nyckelrollen. Systematiskt beskrivna forskningsdata är nyckeln till att göra dina data begripliga, sökbara och återanvändbara.

Metadata bör vara maskinläsbara och maskinåtgärder; alltså, data behöver beskrivas riktigt och systematiskt på det sätt som maskinen kan tolka och navigera i alla metadata och länkade data över olika webbplatser, och hämta och överföra de rätta data för en person som gör semantiska sökningar. Det finns standardmetoder tillgängliga för datadokumentation som kallas metadatastandarder, som bör användas om de är lämpliga för datan. Fairdata Qvain-metadataverktyget gör beskrivning och publicering av forskningsdata smidig och enkel för forskare utan att kräva tekniska färdigheter.

Det rekommenderas starkt att använda Fairdata Qvain-metadataverktyget för att beskriva och publicera dina (meta)data. Qvain är en del av Fairdata services för att stödja din forskningsdata bli FAIR. Data som beskrivs och publiceras av Qvain-metadataverktyget överförs automatiskt till det finska metadatalageret Metax, som är integrerat med både Etsin (forskningsdatasökare) och Finlands nationella forskningsinformationscentrum/Finnish National Information Hub/Tutkimustietovaranto (en tjänst som också beställts av Undervisnings- och kulturministeriet och CSC).

Du kan logga in på Qvain med ditt HAKA-konto, klicka på CREATE DATASET och fyll i blanketten. Se Qvain User Guide.

Om du inte kan publicera och arkivera dina forskningsdata, eftersom dina data innehåller t.ex. personlig information, känsliga personuppgifter eller konfidentiella data, kan du fortfarande publicera metadata för dina forskningsdata. Metadata för forskningsdata som innehåller personuppgifter eller konfidentiella uppgifterna kan publiceras, även om de faktiska uppgifterna inte kan publiceras.

Mer information, se:

Data documentation, CSC
Data description and metadata, Finlands samhällsvetenskapliga dataarkiv (FSD)
Making a research project understandable - Guide for data documentation, Siiri Fuchs och Mari Elisa Kuusniemi, Helsingfors universitetsbibliotek
Disciplinary Metadata, Digital Curation Centre (DCC)

Långtidsbevaring av data

Långvarig bevarande innebär att data bevaras i flera decennier eller århundraden. Du kan kategorisera dina dataset i enlighet med den planerade förvaringsperioden:

1) Data som förstörs när projektet har avslutats.
2) Data som arkiveras under en verifieringsperiod, som kan variera enligt vetenskapsområde, t.ex. 5–15 år.
3) Data som arkiveras för eventuell återanvändning, i t.ex. 25 år.
4) Data av långvarigt värde som arkiveras i en kuraterad tjänst för framtida generationer i tiotals eller hundratals år.

Låntidsbevaring avser den fjärde kategorin. Data alltså bevaras i mer än 25 år. När du skapar dina data behöver du överväga hur länge data kommer att bevaras. Ta reda på om det finns disciplinspecifika krav för att bevara data, eller om forskningsfinansiärer och förlag har särskilda krav.

Finlands Undervisnings- och kulturministeriet har inrättat Fairdata-PAS-tjänsten (Digital Preservation Service for Research Data, DPS for Research Data) för finländska forskningsorganisationer för låntidsbevaring av de nationellt viktigaste forskningsdata. Tjänsten är avsedd för digitalt bevarande av forskningsdata som har betydande värde för organisationen eller på nationell nivå, både nu och särskilt i framtiden.

Se Digital Preservation (Fairdata-PAS): Guidelines for UH Evaluators av Helsingfors universitet.

Om du vill anmäla dig till kö för Fairdata-PAS, kontakta openresearch@hanken.fi.

Fördelar med öppen data och dataåteranvändning

Att göra forskningsdata öppna och återanvändbara och att återanvända och dra nytta av befintliga dataset är en grundläggande anledning för öppen data. FAIR-dataprinciperna kan formuleras som Findable+Accessible+Interoperatable=Reusable. Öppenhet och återanvändning av forskningsdata:

Ökar synligheten och genomslagskraften av din forskning. Att publicera forskningsdata kan skapa flera möjligheter för forskare till meritering t.ex. via citeringar eller registrerade nedladdningar. Det blir på så sätt möjligt att få erkännande för flera delar av forskningsprocessen än enbart den publicerade artikeln.
Erkänns som en del av en forskares akademiska meriter. Insatser som är relaterade till främjande av god datahantering och ändamålsenligt öppnande av forskningsdata är en del av det vetenskapliga arbetet och värderas och övervägs som meriter i forskningsutvärderingskriterier vid rekrytering och karriärutveckling (Policy och åtgärdsprogram om öppen tillgång till forskningsdata, 2021, s. 11; Hankens Riktlinjer för öppen vetenskap och forskning, 2021, s. 8).
Påskyndar tillämpningen av dina forskningsresultat och innovationsprocesser,
Underlättar samarbete såväl inom forskningsområdet som tvärvetenskapligt, både inom det vetenskapliga samfundet och i samhället i stort,
Förbättrar kunskapsdelningen och ökar vetenskapens transparens och tillförlitlighet, vilket både stärker och demokratiserar vetenskapen.
Bidrar till att uppnå SDGs i många aspekter.
Att återanvända publicerade data från tidigare studier sparar inte bara tid och resurser i dataproduktion,
utan också förbättrar datans repeterbarhet och verifierbarhet, forskningens reproducerbarhet, och de forskningsresultatens tillförlitlighet.

Mer information om fördelarna med öppna data, se:

UNESCO Recommendation on Open Science (2021).
Open science and the SDGs i LibGuiden om Öppen vetenskap.

Vid återanvändning av data gäller normal referenspraxis. Se Att återanvända och citera data.