Hvornår kan man stole på statistik?
Statistikernes forudsigelser om det amerikanske præsidentvalg i 2016 skød helt ved siden af resultatet. Betyder det, at statistik er ubrugelig? Nej, siger Peter Linde, kontorchef i DST Survey. Det handler om, at den ene undersøgelse ikke er lige så god som den næste.
19. december 2016 kl. 15:00
Hvert år interviewer Danmarks Statistik 300.000 danskere, der bliver spurgt om alt fra arbejde og indkøb til helbred og trivsel. Når Danmarks Statistik kommer med nye tal om Danmark og danskerne bygger de bl.a. på den slags interviews. Både politikere og andre beslutningstagere baserer deres beslutninger på information herfra, så det er afgørende, at resultaterne giver et retvisende billede.
Men hvordan kan man være sikker på, at interviews med 300.000 personer kan sige noget, der gælder alle 5 mio. danskere? Hvordan sikrer man sig, at tallene ikke rammer helt ved siden af – ligesom forudsigelserne af det amerikanske præsidentvalg eksempelvis gjorde?
For at svare på det må vi se på, hvordan man arbejder i ”maskinrummet” af Danmarks Statistik. Peter Linde, som er kontorchef i DST Survey, svarer her på spørgsmål om, hvad der gør en statistisk undersøgelse brugbar.
Hvordan foregår det, når I udvælger folk til at blive interviewet i DST Survey?
Peter Linde: ”Folk, der bliver interviewet af os, er udvalgt som en del af hele befolkningen. For at stikprøven kan sige noget om danskerne generelt, så er det helt afgørende, at gruppen af folk, der bliver interviewet, er repræsentativ – dvs. sammensætningen af gruppen skal være et ”spejlbillede” af sammensætningen i befolkningen generelt.
I DST sikrer vi os, at spejlbilledet er universelt repræsentativt – det er ikke nok, at fordelingen afspejler køn, aldersgrupper og landsdele. Den skal passe på alle faktorer, fx indkomst, familietype eller etnisk baggrund. Alt, hvad man kan forestille sig har indflydelse på folks besvarelser, skal være repræsenteret i stikprøven i samme forhold som i befolkningen. Det kræver, at man vælger blandt samtlige, og det er det Danmarks Statistik gør, og vores stikprøver er derfor universelt repræsentative. ”
Betyder det så ikke, at stikprøven bare skal være så stor som muligt?
Peter Linde: ”Nej – størrelsen af stikprøven betyder ikke noget for repræsentativiteten. Antallet, man kontakter, betyder alene noget for sikkerheden af det, man estimerer - ikke om det er rigtigt. Hvor stor skal stikprøven være for at være repræsentativ? I princippet behøver den kun at bestå af én person – da dennes indkomst lige så godt kan være over som under det rigtige. Resultatet af en større, repræsentativ stikprøve vil sandsynligvis ligge tættere på ”det faktiske” tal, som man havde fået, hvis man kunne spørge hele befolkningen. Men en stor stikprøve er ubrugelig, hvis den ikke er repræsentativ. Det eneste, man er sikker på, hvis man har en ikke repræsentativ stikprøve og øger stikprøvestørrelsen er, at den mere sikkert er forkert.”
Så det handler om at udvælge og spørge den ”rigtige” gruppe af folk?
Peter Linde: ”Ja, men det at udvælge og spørge folk er kun den første del af arbejdet. Når man kontakter flere end 100.000 folk om året, vil der altid være nogen, der i første omgang ikke kan deltage eller helt falder fra. Dem kan man ikke bare se bort fra, for så vil gruppen ikke længere være repræsentativ.
Et eksempel er, at da Kræftens Bekæmpelse i midten af 90’erne lavede en stor befolkningsundersøgelse af kost og livsstil, deltog 35 pct. af de adspurgte i undersøgelsen. Fordi man kender cpr-numre på alle, som blev inviteret til at være med i undersøgelsen, kunne man mange år senere tjekke, hvordan det sidenhen er gået dem, der ikke deltog. Det viste sig, at der blandt ikke-deltagerne var dobbelt så mange døde i mellemtiden, som blandt deltagerne, og dødsårsagen var i vid udstrækning relateret til rygning og alkohol. Personer, der ryger og drikker lidt for meget er måske nok ikke så villige til at deltage i undersøgelser om ”Kost, kræft og helbred” – alene titlen på undersøgelsen har måske skræmt nogen væk.
Når vi udvælger folk til interviews får vi svar fra 60 ud af 100 – det er en temmelig høj opnåelsesgrad. Men selv, hvis man har en høj svarprocent, kan det være nødvendig at ”reparere” på de besvarelser, man får. Hvis vi fx har for få svar fra folk uden beskæftigelse, tildeler vi de svar, vi har for personer uden beskæftigelse, en større vægt i tabellerne, så de svarer præcist til deres andel i befolkningen. Hvis vi ikke gjorde det, ville oplysninger om indkomst i undersøgelsen fx kunne være 8-10 pct. for højt estimeret. ”
Hvorfor betyder det noget, om undersøgelserne er mere eller mindre rigtige?
”Politikerne baserer deres beslutninger på de tal, som vi kommer med. Derfor må man i et demokratisk samfund for det første stille krav til, hvordan de tal bliver produceret. Et tilbagevendende problem i interviewundersøgelser er, at resultaterne systematisk bliver over-positiveret - eksempelvis på grund af frafald af respondenter. Det kan betyde, at alkoholforbrug undervurderes, at indkomstniveau overvurderes osv.
Hvis politik baseres på undersøgelsesinformationer, der fx systematisk over-positiverer, hvilke konsekvenser har det så? Det er selvfølgelig svært at sige noget entydigt om, men sikkert er det, at vi må være meget opmærksomme på, hvilke usikkerheder der er i forhold til undersøgelsesresultater.
Churchill sagde, at man kun kan have tillid til statistikker, som man selv har manipuleret. Læren af det er, at for at statistik kan være brugbart for os som samfund, så skal man fortælle, hvad man har lavet, når man har lavet en undersøgelse – og ikke påstå eller lade være underforstået, at noget er repræsentativt, hvis det ikke er det.
Som samfund har vi en interesse i, at statistikker giver et så retvisende billede som muligt af dagens Danmark. Ellers risikerer vi, at der stilles de forkerte diagnoser, og at de som beslutter ordinerer den forkerte medicin. ”