Statistisk behandling
Kontaktinfo
Forskning, Teknologi og Kultur, ErhvervsstatistikMille Wilhjelm Poulsen
40 18 78 40
Hent som PDF
Statistikken er spørgeskemabaseret og indsamles årligt blandt ca. 650 offentlige og private ikke profitorienterede enheder, der er tilsammen antages at udføre al signifikant forskning og udvikling i den offentlige sektor. De indberettede data underlægges en meget omfattende validering fokuseret på en række højprioritetsvariable, herunder især udgifterne til forskning og udvikling og FoU-årsværk. Validering foretages på såvel makro- som mikroniveau.
Kilder
Statistikken er spørgeskemabaseret og indsamles blandt ca. 650 offentlige og private ikke- profitorienterede enheder, der tilsammen antages at udføre al signifikant forskning og udvikling i den offentlige sektor. Statistikken indsamles på to spørgeskemaer: ét til universitetshospitaler, og ét til øvrige indberettere (hovedsageligt universiteter).
Indsamlingshyppighed
Årligt.
Indsamlingsmetode
Statistikken indsamles ved et spørgeskema, der indsendes via Virk.dk. Hvis et papirskema ønskes kan det rekvireres. Spørgeskemaer kan ses på Danmarks Statistiks sider for indberettere: Spørgeskema for offentlige institutioner ekskl. hospitaler og Spørgeskema for hospitaler
Datavalidering
Der er defineret en række højprioritetsvariable, som har særligt stor fokus i fejlsøgningen og opretningen. Det er de variable i undersøgelsen, der har størst betydning for det samlede, overordnede billede af FoU-aktiviteten. Disse variable er:
- Løn til FoU
- Øvrige driftsomkostninger til FoU
- FoU-udgifter i alt
- Antal årsværk til FoU (og dermed nedbrydninger på personalekategori)
- Gennemsnitlig løn pr. FoU-årsværk. Variablen er afledt som løn til FoU divideret med antal årsværk til FoU.
- Ekstern finansiering
- Fordeling af fag og forskningstyper
Disse variable er alle karakteriseret ved at være numeriske og ved at fejl eller misforståelser i indberetningen kan få store konsekvenser for det samlede billede. Disse variable gennemløber derfor en omfattende fejlsøgning. De øvrige variable fejlsøges også. De steder, hvor der er tale om procentfordelinger, er prorate opregninger eller tidligere års indberetninger et godt estimat.
I mikrofejlsøgningen undersøges den enkelte indberetning på flere måder:
- På variabelniveau
- Imellem kryds af variable
- Over flere år
- Ved sammenligning med andre datakilder. Dette kan eksempelvis være institutionernes årsrapporter eller fondsbevillinger som kan sammenholdes med ekstern finansiering.
På variabelniveauet undersøges det for samtlige variable, om indholdet af denne er i overensstemmelse med det definerede.
Undersøgelsen på variabelniveau følges af krydsfejlsøgning, hvor materialet undersøges for fejl imellem kombinationer af variable, fortsat inden for den enkelte indberetning.
Hvor der foreligger indsamlede data fra samme enhed over flere år, undersøges konsistensen af disse.
Der skelnes grundlæggende mellem to typer af fejl.
-
Sikre fejl der kan fx være formatfejl, tekniske fejl eller logiske fejl. De sikre fejl findes oftest hurtigt i fejlsøgningsprocessen, fx ved fremskudt og initiel fejlsøgning. Et eksempel fra statistikken kunne være en 1000-tals fejl. Hvor indberetteren har angivet omkostninger, uden at tage højde for at der bliver spurgt i tusinde kroner.
-
De sandsynlige fejl er fx observationer, der falder uden for nogle fastsatte acceptniveauer, hvis en observation konfronteres med historisk data og ser usandsynlig ud, eller hvis observationens påvirkning på totalen er usandsynligt høj. Disse fejl identificeres oftest i den selektive fejlsøgning. Et eksempel fra statistikken kunne være, at en indberettere har fået en stor ekstern bevilling, som de ikke før har modtaget de forgangene år. Dette er ikke nødvendigvis en fejl, men institutionen vil højst sandsynlig blive kontaktet, for at sikre at indberetningen er korrekt.
I makrofejlsøgningen tages udgangspunkt i at sammenholde den enkelte besvarelse med de samlede besvarelser. Til makrofejlsøgningen anvendes i vid udstrækning Banff-procedurer, som er udviklet af Statistics Canada.
Der anvendes forskellige former for imputering:
- Imputering af manglende værdier
- Prorate imputering
- Imputering af manglende besvarelser
Imputering af manglende værdier anvendes over for flere variable, primært overfor de procentvise fordelinger af FoU aktiviteten på fag, formål og strategiområde (7,8 og 9 og 8,7 og 9 i hhv. skema for forskning og udvikling i offentlige institutioner og Forskning og udvikling ved hospitaler). Generelt imputeres med værdier indhentet tidligere år fra samme enhed. I tilfælde, hvor sikre løndata ikke kan skaffes, imputeres løn opregnet ud fra antal årsværk.
Eksempel:
- Der er ikke anført fordeling af FoU-aktivitet på formål, men denne kan hentes fra samme enhed fra året før tællingsåret.
- Der er anført FoU-personale og årsværk i alt, men ikke lønoplysninger.
Prorate imputering anvendes primært overfor de procentvise fordelinger, som er angivet ovenfor, i de tilfælde hvor procenter er angivet, men ikke summer til 100 (eller summer til under 100 i forskningsaktivitet fordelt på strategiområde). Herudover bruges prorate imputering til at nedskrive eksterne kilders dækning af FoU i tællingsåret, hvis disse overskrider de faktiske udgifter til FoU i tællingsåret.
Eksempel:
- Der er anført fordeling af FoU-aktivitet på formål, men denne summer ikke til 100.
Imputering af manglende besvarelser, er hvor hele skemaet udfyldes maskinelt hvis det, trods gentagne skriftlige og telefoniske henvendelser, ikke har været muligt at opnå en besvarelse. Dette er ikke særligt omfattende, givet den høje besvarelsesprocent.
Danmarks Statistik har på de fleste universiteter og større universitetshospitaler aftaler med lokale kontaktpersoner, der sørger for at skaffe supplerende oplysninger i det omfang, det er nødvendigt for den enkelte institution. Derudover foreligger der ofte aftaler om, at kontaktpersonerne forestår indsamlingen af data fra enheder i deres institution, hvilket sikrer effektiv kontakt til de enkelte statistiske enheder som ellers i disse tilfælde kunne være problematisk. Proceduren giver også mulighed for strømlining af indberetningsprocessen for institutioner, der skal rapportere for mange statistiske enheder og sikrer, at den institutionelle erfaring med indberetning til statistikken i størst muligt omfang fastholdes Populationen findes med udgangspunkt i populationen fra det foregående tællingsår. Nye enheder identificeres (og enheder der er ophørt eller ikke længere er forskningsaktive udelukkes) primært ved at fællesindberettere spørges om udviklingen i de pågældende institutioner. Kvaliteten af populationen udenfor fællesindberetterne søges sikret dels gennem løbende kontakt med indberetterne, dels gennem løbende overvågning af mulige nye enheder. Det bør dog bemærkes at populationens dækning alt andet lige må betragtes som sikrest indenfor universiteter og universitetshospitaler, som dækkes af fællesindberetterne.
Databehandling
Målsætningen med dataindsamlingen er at tilvejebringe data, der kan danne grundlag for at producere statistiske oplysninger om den offentlige sektors forskning og udviklingsindsats i tællingsåret. Data skal være:
- Retvisende og dække forskning i den danske offentlige sektor og private ikke- profitorienterede virksomheder (PNP'er) som helhed.
- Egnede til at danne statistik på mere detaljeret niveau.
- Mindst muligt belastende for indberetterne.
Statistikken gennemføres som en totaltælling af de forventede forskningsaktive institutioner. I henhold til lov om Danmarks Statistik (§ 6 og 8) er indberetterne forpligtet til at afgive de ønskede oplysninger.
Danmarks Statistiks målsætning er, at indberetninger sker digitalt. Ved at stille brugervenlige indberetningsløsninger via Virk.dk til rådighed tilstræbes det, at indberetterne selv vælger at indberette digitalt. Ved siden af Virk.dk har Danmarks Statistik aftaler med en række fællesindberettere om, at disse leverer data for de enheder, der hører under dem direkte i anden elektronisk form. Dataindsamlingen igangsættes over for indberetterne med udsendelse af et brev, som oplyser om undersøgelsen, tidsfrist for besvarelse, lovpligtighed og muligheden for at indberettet via Virk.dk. Dataindsamling fra fællesindberettere foregår generelt efter særaftale for at imødegå den enkelte institutions behov.
Formålet med den videre databehandling er at undersøge det indsamlede materiale, og foretage opretning af fejl og mangler, således at det samlede materiale danner basis for et retvisende billede af forsknings- og udviklingsaktiviteten - også over tid.
En udfordring i databehandlingen er de mange variable - i alt er der med underspørgsmål ca. 600 enkeltvariable i undersøgelsen. Med besvarelser fra ca. 650 enheder, er der således over 400.000 felter, og dermed også et betydeligt antal potentielle fejl eller misforståelser i de indberettede oplysninger.
Det betyder:
- At både fejlsøgning og -opretning af det indsamlede materiale så vidt det er muligt foretages maskinelt. Da mange af spørgsmålene er indbyrdes relaterede, skal fejlopretningen foregå planlagt og systematisk, da en rettelse af ét spørgsmål ellers kan føre til, at der opstår nye fejl.
- At der skal foretages en prioritering i fejlsøgningen ud fra den betragtning, at ikke alle variable eller spørgsmål har lige stor betydning for det samlede billede.
Flere af undersøgelsens spørgsmål omhandler forskellige dimensioner af samme emne. Det giver nogle fordele, idet der er grundlag for intern verificering i selve skemaet, og det er samtidig en kilde til at identificere krydsfejl, som er fejl, hvor indholdet af to eller flere variable er indbyrdes modstridende.
Korrektion
Der foretages ikke yderligere korrektioner end de som er nævnt under datavalidering og databehandling.