Vejledning om populationsbeskrivelse
I denne vejledning kan du læse nærmere om, hvordan du beskriver en population fyldestgørende samt redegør for et evt. behov for selv at danne en population. Du kan også læse om krav til forskellige typer af populationer, hvad du skal være opmærksom på i beskrivelsen samt hvordan vi i Forskningsservice vurderer din populationsbeskrivelse på baggrund af Dataminimeringsprincippet (jf. Databeskyttelsesloven).
Populationen skal beskrives så det tydeligt fremgår, hvad den består af (personer, virksomheder, adresser, en unik kombination af flere forhold eller andet), hvilket årstal eller for hvilken periode, populationen skal dække uanset størrelse. Populationen skal desuden være defineret, begrundet og afgrænset ift. formålet. Ønskes der fuld population, skal der fremgå argument for dette i populationsbeskrivelsen.
En god populationsbeskrivelse skal indeholde et eller flere af følgende elementer:
- hvilke registre eller eksterne/øvrige data, der konkret skal anvendes i populationsdannelsen
- hvilken periode/hvilke år/kvartaler/md skal anvendes
- hvilke betingelser skal være opfyldt, gerne ved faktisk at skrive betingelserne med variabelnavne og afgrænsning på konkrete værdier. F.eks. at populationen skal afgrænses på alder fra 15-76 år.
- hvem der skal danne populationen(erne)
- evt. hvordan registrene skal kobles, hvis der skal anvendes flere registre. Kobling baseret på hvilke variable og evt. via hvilket nøgleregister. (Dette kan dog specificeres i en udtræksbeskrivelse som vedhæftes i Danmarks Datavindue)
Udtræksbeskrivelse bør vedhæftes til populationsbeskrivelsen, hvis populationen er særligt betinget, koblet eller andet. Dette gælder også selvom populationen dannes eksternt.
Ud over ovenstående, som også gør sig gældende for case-kontrol populationer, bedes følgende være specificeret i en udtræksbeskrivelse, som vedhæftes population i projektindstillingen:
Hvad udgør mulige kontroller (bruttokontrol):
- Hvilken pulje skal kontroller trækkes fra? (f.eks. personer bosiddende i Region Sjælland)
- Hvilke registre skal bruges til at danne puljen af mulige kontroller? (f.eks. BEFBOP, BEFADR, VNDS, DOD)
- Hvilke inklusions- og eksklusions kriterier (og baseret på hvilke variable og hvilken tidsperiode) skal være opfyldt? (F.eks. køn = 2 (kvinder), kommune = 607 (Fredericia), bopæl i DK i perioden 01-01-2011 t/m 31-12-2014, ej død, ej udvandret)
Antal kontroller og tilbagelægning:
- Hvor mange kontroller ønskes udtrukket per case?
- Må cases være kontroller for andre cases?
- Må kontroller skifte status i inklusionsperioden?
- Skal kontroller udtrækkes med eller uden tilbagelægning mellem cases, dvs. må en kontrol forekomme som kontrol for mere end én case
- Skal kontroller udtrækkes med eller uden tilbagelægning indenfor cases, dvs. må en kontrol forekomme mere end én gang for en given case eller ej.
Med case-kontrol population menes der eksponerede entiteter vs. Ikke eksponerede entiteter.
For projekter, hvor brugerne selv får lov til at danne de "endelige" populationer, som skal anvendes til selve dataanalyserne og at generere resultater fra projektet, kræves det, at det beskrives tydeligt i projektindstilling (+ bilag til populationsbeskrivelse):
- hvorfor det er nødvendigt, at bruger selv danner de(n) endelige population(er) (hvorfor kan Forskningsservice ikke gøre dette)
- hvordan "endelige" population(er) skal defineres og afgrænses (dvs. konkrete registre, variable og evt. betingelser på variabelværdier - afhængigt af hvad der giver mening).
- hvordan ’brutto referencepopulation(er)" skal defineres og afgrænses (dvs. konkrete registre, variable og evt. betingelser på variabelværdier - afhængigt af hvad der giver mening - men pointen er, at der fortsat skal dataminimeres. Der gives mulighed for avanceret statistisk matchning (f.eks. ”High dimensional propensityscore matching”) til dannelse af den endelige reference population. Til denne type matchning gives fuld adgang til tilgængelig registerinformation, sv.t. de Grunddata registre der anmodes om til dataanalysen af de endelige populationer. Udelukkende data vedr. de endelige populationer anvendes og gemmes (jf. nedenfor).
- hvilke data (registre og variable), der kun skal anvendes til dataanalyser til at generere resultater ift. projektets formål.
- at der kun vil blive hjemsendt analyseresultater baseret på de(n) endeligt afgrænsede population(er), og at der kun vil blive udført dataanalyse baseret på de(n) endeligt afgrænsede population(er).
Indskriv derfor følgende tekst nederst i populationsafsnittet i projektindstillingen:
"Der vil udelukkende blive udført dataanalyser, genereret analyseresultater og hjemsendt analyseresultater, som er direkte relevante i forhold til projektets formål, og som er baseret på de(n) endeligt afgrænsede population(er). Data, som ikke er en del af / baseret på de(n) endeligt afgrænsede population(er), anvendes udelukkende til at danne de(n) "endelige" population(er) og må ikke hjemsendes."
FSE vurderer populationsbeskrivelsen ift. dataminimeringsprincippet, herunder:
- om den ønskede population har tydelig sammenhæng med et velafgrænset formål.
- om den ønskede population er afgrænset ift. formålet (f.eks. tidsperiode, fødselsår, uddannelsesniveau, køn).
- om baggrund for afgrænsning eller mangel på samme giver mening ift. formål.
- om en eventuel begrundelse for fuld population fordrer og begrunder nødvendigheden for dette (det er som udgangspunkt ikke muligt at få adgang til ”fuld” population, dvs. adgang til alle oplysninger på ét eller flere registre, men det er muligt, hvis problemstillingen fordrer dette og nødvendigheden begrundes).
FSE sikrer desuden, at det tydeligt fremgår:
- hvem der skal danne populationen.
- hvilke registre, variable og evt. værdier populationen er baseret på.
- hvilke registre, variable og evt. værdier eventuelle afgrænsninger er baseret på.
- hvilken tidsperiode populationen skal dannes for.