Statistisk behandling
Kontaktinfo
Konjunkturstatistik, ErhvervsstatistikPeter Ottosen
30 42 91 91
Hent som PDF
AIS-data fra Søfartsstyrelsen modtages løbende og registreres dagligt. Data gennemgår en datareduktion, hvor overflødige observationer fjernes for at lette den yderligere databehandling. Dernæst udvælges ankomstobservation og afgangsobservation, hvor ankomst/afgang identificeres og sammenhørende par identificeres. Herefter afgrænses havne, ved hjælp af data om skibspositioner. Placering af ankomst/afgangsobservationer i havne og statistik, hvor ankomst/afgang knyttes til en konkret havn og statistikdatasæt dannes
Endelig foretages tabellering, indeksering og sæsonkorrektion.
Kilder
Datagrundlaget er primært skibspositionsdata (AIS) indsamlet af Søfartsstyrelsen og stillet til rådighed som fællesoffentlige data. Danmarks Statistik har modtaget og lagret data siden marts 2016.
AIS-data indeholder skibspositioner mm. for skibe med AIS transponder, dvs. mindst alle skibe over 300 BT, fiskefartøjer over 15 meter samt alle passagerfærger. Blandt disse er udvalgt skibe registreret som fragt- eller containerskibe.
Indsamlingshyppighed
Data modtages i et løbende stream fra Søfartsstyrelsen og registreres i interne databaser i Danmarks Statistik dagligt. Data udgives månedligt.
Indsamlingsmetode
Data registreres elektronisk af Søfartsstyrelsen via VHF modtagere, der er placeret langs de danske kyster. Danmarks Statistik modtager løbende data fra Søfartsstyrelsen.
Datavalidering
Der foretages i øjeblikket kun overordnet kontrol af mulige dataudfald i materialet, dvs. perioder hvor Danmarks Statistik af forskellige grunde ikke har modtaget data. Kortvarige dataudfald har kun marginal betydning, mens udfald på flere timer kan betyde, at anløb ikke registrere.
Databehandling
Trinene i databehandlingen er 1. Datareduktion 2. Udvælgelse af ankomstobservation og afgangsobservation 3. Afgrænsning af havne 4. Placering af ankomst/afgangsobservationer i havne og statistik
Det første trin er datareduktion. Formålet er udelukkende at reducere mængden af data, der skal behandles og består af tre dele: geografisk reduktion, reduktion i observationshyppighed og reduktion i analyserede skibstyper.
AIS data indeholder alle informationer fra AIS systemet, som de danske receivers modtager. Det inkluderer en lang række observationer, som ikke direkte vedrører Danmark, men snarere Tyskland, Norge eller Sverige. Metoden til geografisk afgrænsning er simpel, idet data afgrænses med en firkant, som dækker hele Danmark og dermed også den sydlige del af Sverige. De svenske havne bliver frasorteret i senere trin. Her er der mulighed for raffinering med afgrænsning til observationer, der er inden for det danske søterritorium.
Skibene udsender signaler med et interval bestemt af hastighed og aktivitetstype samt type af senderen/transponderen. De hyppigste sinaler kommer med 6 sekunders mellemrum. Når formålet er at undersøge anløb i havnene, er så hyppige data slet ikke nødvendige. Data reduceres derfor til den første observation per minut.
Aktiviteten i havnene kan dække over mange typer af aktiviteter. For at understøtte eksisterende havnestatistikker, som fokuserer på godshåndtering i havnene, er data reduceret til de skibstyper, der udelukkende anvendes til godsfragt: fragtskibe og containerskibe.
Det næste trin i processen er at identificere skibsanløbene med ankomst og afgang. Hvert skib efterlader en række af positionsoplysninger og målet er at identificere den observation, der repræsenterer ankomsten til en havn og den tilhørende observation, der repræsenterer afgangen fra havnen.
Processen er principielt simpel: Datasættet sorteres efter skibsidentifikation og tid. Dernæst markeres alle observationer, hvor skibet går fra at sejle (markør sat til under way skifter til moored samtidig med at skibet går fra at bevæge sig (mere end 1 knob) til at lægge (næsten) stille). Det er potentielle ankomster. Det samme gøres for potentielle afgange, hvor skibet går fra at have markøren sat til moored til under way og det bevæger sig. Med alle potentielle ankomster og afgange matches de sammen i par. Langt hovedparten hænger fint sammen, men der er både ankomster med manglende afgange og afgange med manglende ankomster. Mulige forklaringer er:
- Lange havneophold: Den gennemsnitlige opholdstid i havnen er omkring 12 timer, men hvis den er flere dage lang, kan der i starten eller enden af den betragtede periode mangle den matchende observation. Det kompenseres delvis for ved at bruge data, der rækker ud over perioden, fx vente 5-6 dage før seneste måneds statistik udarbejdes. Meget lange ophold i havnen er sjældent forbundet med fragtsejlads, men snarere et behov for reparation eller andet og er formentlig ikke væsentlige i forhold til statistikkens formål.
- Slukket transponder: Det er (som regel) ikke ulovligt at slå transponderen fra, og man kan forestille sig, at skibe først får slået transponderen til, når havnen er anløbet eller får den slået fra i havnen og glemmer at tænde den igen, når havnen forlades.
- Dataudfald: Der findes udfald i data, hvor data fra en enkelt receiver ikke kommer ind i en periode, data ikke streames fra Søfartsstyrelsen eller hvor data ikke opsamles og lagres af Danmarks Statistik. Det sidste var særlig i opstartsfasen og udfaldene er blevet reduceret meget over tid.
Det tredje trin er at afgrænse anløb til de observationer, der rent faktisk er anløb i en havn. Der er på dette tidspunkt fortsat en lang række af ankomst/afgange, som ikke er i nærheden af en havn. Ydermere skal data afgrænses til danske havne. Der er fortsat observationer fra særligt svenske havne med i datagrundlaget, herunder aktiviteten i Nordens største godshavn, Göteborg. Hvis data fra starten bliver reduceret til dansk søterritorium, forsvinder denne sidste del også.
Når dette tredje trin er lavet på mindst et par års data, kan en enkelt måneds statistik køres uden at danne en ny havneafgrænsning. Det reducerer den månedlige produktionstid markant og indarbejdelsen af nye data i afgrænsningen kan foretages efter statistikproduktionen.
Selve processen i dette trin består af tre dele:
- Sammenknyt observationer (ankomster bruges) i grupper (clusters) efter den indbyrdes afstand mellem observationerne og antallet af observationer i nærheden.
- Dan polygoner, som omslutter alle observationer i samme cluster
- Forbind de enkelte polygoner til faktiske havne
Resultatet af de tre trin er en spatial opslagstabel, som består af polygoner og tilhørende havn. En havn kan bestå af flere polygoner, mens en polygon kun kan være tilknyttet en havn. Hvis en ankomst ligger inden for en given polygon, ved vi dermed hvilken havn, anløbet hører til. For større havne repræsenterer hver polygon typisk et særskilt kajanlæg.
Første trin består i at beregne alle indbyrdes afstande mellem ankomstpunkterne, hvorefter ankomsterne samles i grupper. Hvis to observationer (uafhængigt af tid) er mindre end fx 50 meter fra hinanden, knyttes de sammen. Hvis en tredje observation er mindre end 50 meter fra en af de første to observationer, bliver den også en del af gruppen. Til endelige grupper bliver alle grupper med flere end fx 5 observationer. Antallet af observationer i en gruppe og afstanden mellem observationer i gruppen er parametre, der kan tilpasses. Jo færre observationer, der anvendes des større bør afstanden være og des mindre bør antallet af observationer i en gruppe være. Med tre års data anvendes 70 meter og 5 observationer. Efter første skridt har alle observationer fået tilknyttet en gruppe (cluster). Alle observationer, der ikke opfylder kriterierne får clusternummer -1 og betragtes som falsk positive anløb.
Andet trin danner polygoner, der omkranser de enkelte clusters, således at alle observationer i samme cluster ligger indeni eller på kanten af polygonen. Hvis man ser på beliggenheden af disse clusters, får man uden videre bearbejdning et godt billede af, hvor der er havne. I lande, hvor der etableres uofficielle havne, kan man her identificere uofficielle havne.
Tredje skridt knytter de enkelte polygoner til en havn. Det gøres i en iterativ proces, hvor der tages udgangspunkt i et havnecentroid (eller tilsvarende – i praksis anvendes oftest koordinatet for havnen, som angivet i UnLocode listen, men det kan også findes ved simpel opslag i fx Google Maps). Den iterative proces sikrer at ingen clusters knyttes til mere end en havn og at polygonen knyttes til den havn, der ligger tættest på polygonen. Tætliggende havne, som skal kunne adskilles, kan give lidt manuelt arbejde med at tilpasse udgangspunkterne, så de enkelte cluster kommer med i den rette havn. Iterationen foregår ved, at der dannes en gradvis større cirkel omkring udgangspunktet for havnen. Hvis cirklen overlapper en clusterpolygon, tilknyttes denne cluster til den pågældende havn, hvorefter den ikke kan kobles til andre havne. Den maksimale afstand fra havnens udgangspunkt for clusters må defineres ud fra konkrete data. I de danske data er begrænsningen sat efter, at der ud for Skagen er defineret en række clusters for skibe, der ligger på red. De betragtes reelt ikke som værende i havn og grænsen er sat, således, at disse clusters ikke medtages. Da der udelukkende tages udgangspunkt i danske havne, sorterer processen også de primært svenske havne fra.
Ved enden har vi en opslagstabel, hvor de øvrige oplysninger om konkrete havne også kan findes, fx kommune, unlocode, navn, CVR nummer og kystzone.
Det sidste trin i hele processen er, at anløbene (defineret som ankomst og tilhørende afgang i trin 2) matches op mod polygonerne, som definerer (dele af) havnene. Resultatet er et datasæt, som indeholder oplysninger om anløbet (primært tid, skibsidentifikation og skibsnavn) og den havn, der er anløbet (primært havnens navn, kode og landsdel). Data kan yderligere beriges med mere detaljerede skibsoplysninger fra skibsregistre, fx størrelse, flagstat, mere præcis skibstype og ejer/operatør.
Herfra er processen helt standard for statistikproduktion. Tabellering på eventuelle på underopdelinger, indeksering og sæsonkorrektion.
Korrektion
Der foretages sæsonkorrektion.