sunnuntai 6. marraskuuta 2011

Tietovuotoaineistossa on yliedustus itäsuomalaisia ja pääkaupunkiseutulaisia

Halusin tutkia tarkemmin tuota aikaisemmin silmämääräisesti havaittua itäsuomalaisten kaupunkien (Joensuu ja Kuopio) yliedustusta henkilöiden postinumero ja sähköpostitiedoissa.

Tätä varten liitin henkilötiedot postinumeroiden kautta kuntiin ja latasin Tilastokeskukselta tiedot kuntien asukasluvuista vuonna 2010.

Vertasin eroaako asukaslukujen kuntakohtainen jakauma aineistossa havaitusta jakaumasta. Kohdensin vertauksen ainoastaan yliedustukseen ja jätin aliedustuksen (t.s. oliko jostain kunnasta vähemmän henkilöitä kuin olisi syytä olettaa). Tiputin testauksesta suoraan pois kunnat joista listalla oli alle 100 henkilöä, tämä sen takia että erityisesti pienten kuntien kohdalla heilunta johtuu todennäköisesti juuri pienestä väkiluvusta.

Vertailun tuloksena havaitsin että 10 kuntaa poikkesi aineistossa tilastollisesti väestömääriin perustuvista odotusarvoista. Kuopion ja Joensuun lisäksi listalle nousi pääkaupunkiseudun kuntia, joihin en ollut aikaisemmin kiinnittänyt huomiota vaikka ne pyörivät lukumäärälistojen kärjessä (koska tämä tietysti oli perusoletus näiden väkirikkaiden kuntien kohdalla).

Olen koonnut alla olevaan kuvaajaan nämä 10 kuntaa. Palkit kuvaavat yliedustusta niin että pystyakselilla 1:n kohdalla oleva punainen viiva näyttää kohtaa jossa tietovuotoaineiston väkimäärä vastaisi täydellisesti kyseisen kunnan väestömäärää. Kuvasta voi siis päätellä että Hyvinkäältä aineistossa oli lähes 4 kertaa odotettua enemmän henkilöitä. Joensuusta ja Kuopiosta henkilöitä oli yli 3 kertaa enemmän.

Johtopäätelmänä voisi siis todeta että kuopiolaisten ja joensuulaisten lisäksi aineistosta löytyy yliedustus myös pääkaupunkiseudun läheisyydessä asuvia henkilöitä.

Teknisiä yksityiskohtia: Kyseessä siis binomialinen yhdensuuntainen testi, jonka tuloksena saatuja tilastollista merkitsevyyttä merkkaavia p-arvoja korjasin moninkertaisen testauksen vuoksi BH-FDR:llä. Tilastollisen merkitsevyyden rajana käytin FDR korjattua p-arvoa < 0.05.

1 kommentti:

  1. How to make money from betting on football - Work Tomake Money
    If you're having problems finding หารายได้เสริม a winning bet septcasino online for the day of https://deccasino.com/review/merit-casino/ your choosing, https://tricktactoe.com/ then there are plenty of opportunities available right here.

    VastaaPoista