lauantai 5. marraskuuta 2011

Vilkasua henkilötietomurron sisältöön


Päivitys: Liitin postinumerot kuntatietoihin ja tulos löytyy viestin loppupuolelta.

Päivitys: MikroPC teki pienen jutun liittyen tähän blogaukseen, esittäen omia teorioitaan aineiston taustasta.

Päivitys: Vauhdilla rapatessa roiskuu. Aikaisemmin mainitsemani 11 kpl alle  18 vuotiaita ei pidä paikkaansa. Todellinen luku on 513. Kiitoksia tarkkaavaiselle lukijalle huomiosta. Muitakin kommentteja & korjauksia otetaan myös mielellään vastaan! Päivitin samalla myös ikäkuvaajan tarkempaan versioon josta todellinen ikäjakauma näkyy selvemmin. 

Useat tiedotusvälineet uutisoivat lauantaina 5. marraskuuta 2011 ilmitulleesta tietomurrosta, jonka seurauksena internetiin levitettiin tiedostoa joka sisälsi yli 16 000 suomalaisen henkilötiedot (esim. Helsingin Sanomat, Yle).

Tiedosto levisi välittömästi laajalle ja herätti valtavasti kiinnostusta eri puolilla. Tämän kirjoitushetkellä tiedossa ei ole mistä tiedot ovat alun perin peräisin. Koska tiedostosta löytyy usean tuttavani tiedot ja pohdimme yhdessä mikä niiden lähde on, päätin pureutua hieman tiedoston sisältöön ja koittaa selvittää minkälaisesta kokoelmasta oikeasti on kysymys. Tämä kirjoitus sisältää pintapuolista data-analyysiä tiedoston sisällöstä, kuitenkaan paljastamatta mitään yksityiskohtia henkilökohtaisista tiedoista.

Aineisto sisältää 16102 riviä tietoa. Rivit on indeksoitu henkilötunnusten (hetu) mukaan, joten yksi rivi vastaa yhtä henkilöä.  Mahdollisia tietoja henkilötunnuksen lisäksi ovat etunimet, sukunimi, osoite, sähköpostiosoite, puhelinnumero, sekä (ilmeisesti) oppilaitos. Kaikki henkilötunnukset ovat muodoltaan ja tarkistusmerkiltään oikeallisia Suomen henkilötunnuksia.

Tiedot ovat osittain puutteellisia ja esimerkiksi joiltakin henkilöiltä hetun lisäksi löytyy ainoastaan nimi tai sähköpostiosoite. Kuitenkin henkilöitä joille löytyy hetu, etu- ja sukunimet, osoite, sähköpostiosoite ja puhelinnumero, on 11 885 kappaletta. Opiskelupaikka tiedot löytyvät 1 230 henkilöltä.

Henkilötunnuksista laskettavien sukupuolten mukaan listalla on 4 955 naista (n. 31%) ja 11 147 miestä (n. 69%).

Henkilöiden henkilötunnusten mukaan laskettu ikäjakauma on seuraavanlainen: iät ovat väliltä 4-110  vuotta. Keski-ikä on 39 vuotta (1. ja 3. kvartiilit 29..49 vuotta). Yleisin ikä on 43 vuotta (472 kpl). Ääriarvojen tarkastelu paljastaa että 110 vuotias henkilö on Luottokunnan testitunnus. Kyseisen testihenkilön tiedot näyttävät siltä että kyseessä voisi olla todellinen Luottokunnan testitunnus. Toiseksi vanhin henkilö on 100 vuotias, mutta kyseessä on selkeästi keksitty henkilötunnus (joka tosin muodoltaan on oikeallinen), nimi ja osoite. Todellisia yli 90 vuotiaita henkilöitä aineistosta näyttää löytyvän 3 kappaletta. Nuorimman 4 vuotiaan henkilön tiedot näyttävät myös todellisen henkilön tiedoilta. Alle 10 vuotiaita henkilöitä aineistossa on 3 kappaletta, alle 15 vuotiaita 4 kappaletta, ja alle 18 vuotiaita 513 kappaletta. Kuvaajaa tarkistelemalla on kuitenkin selvää että aineisto keskittyy täysi-ikäisiin ihmisiin.


Ikätietojen perusteella voi siis päätellä että kyseessä on rekisteri jonka tietoja ei varmisteta etukäteen (selkeästi keksityt henkilötiedot ja osittain puutteelliset tiedot). Rekisteri sisältää tietoja monen ikäisistä henkilöistä (mukaan lukien pienet lapset). On myös mahdollista että kyseessä on toimija joka käyttää Luottokunnan palveluita.

Sähköpostien domain-nimien perusteella sähköpostit edustavat yleisesti Suomessa käytettyjä sähköpostipalveluita. Yleisimmät domain-nimet ovat gmail.com, hotmail.com, luukku.com, suomi24.fi, pp.inet.fi, kolumbus.fi. Oppilaitosten sähköposteista yliedustettuja ovat Itä-Suomen yliopisto ja sen entiset osayliopistot (Kuopion ja Joensuun yliopisto), mm. domain-nimillä hytti.uku.fi, student.uef.fi, cc.joensuu.fi, joensuu.fi, uef.fi.

Domain Lukumäärä
gmail.com 1859
hotmail.com 1840
luukku.com 800
suomi24.fi 388
pp.inet.fi 330
kolumbus.fi 328
netti.fi 222
elisanet.fi 210
hytti.uku.fi 207
dnainternet.net 143
student.uef.fi 105
jippii.fi 102
yahoo.com 100
windowslive.com 97
cc.joensuu.fi 93
saunalahti.fi 93
joensuu.fi 78

Yleisin postinumero on Helsingin 00940 (120 kpl), toisena Kuopion 70100 (94 kpl), kolmantena Joensuun 80100 (92 kpl). Muuten listan kärkipää sisältää lähinnä pääkaupunkiseudun postinumeroita. Silmämääräisesti Kuopio ja Joensuu tuntuvat siis olevan asukasmääräänsä nähden yliedustettuina myös postinumeroissa.

Postinumero Lukumäärä
00940 120
70100 94
80100 92
00980 91
01450 91
01900 89
05200 84
01200 83
01600 75
80140 75


Liitettäessä postinumerot kuntatietoihin, listan kärki näyttää seuraavalta:


Kunta Lukumäärä
Helsinki 1657
Vantaa 971
Espoo 591
Kuopio 520
Joensuu 422
Tampere 402
Hyvinkää 299
Turku 223
Oulu 140
Järvenpää 135
Kerava 130
Riihimäki 128
Lahti 126
Pori 111
Jyväskylä 99
Hämeenlinna 98
Tuusula 96
Nurmijärvi 89
Rajamäki 84
Lappeenranta 81
Klaukkala 69
Nummela 59
Vaasa 55
Porvoo 54
Lohja 51
Kajaani 50
Seinäjoki 50
Mikkeli 48
Varkaus 46
Kotka 41
Karkkila 40
Savonlinna 40


Aikaisemmin havaittu Kuopion ja Joensuun yliedustus näyttää vahvistuvan myös kuntakohtaisella tarkastelulla. 

Listattujen opiskelupaikkojen kärkipäässä ovat Tampereen ammattiopisto (103 kpl) ja Poliisiammattikorkeakoulu (95 kpl). Yllättäen Kuopion, Joensuun, tai Itä-Suomen yliopistot eivät sijoitu tällä listalla korkealle, vaikka näissä oppilaitoksissa opiskelevia ihmisiä listalta löytyy paljon. Tämän johdosta on hankalaa tulkita ovatko kyseisessä kentässä olevat tiedot ihmisten nykyisiä opiskelupaikkoja vai jotain muuta tietoa.

Oppilaitos Lukumäärä
Tampereen ammattiopisto 103
Poliisiammattikorkeakoulu 95
Turun ammatti-instituutti 44
Tampere 30
Helmi Liiketalousopisto 29
Tampereen Ammattiopisto 27
Oulun seudun ammattiopisto 21
Vaasan ammattiopisto 20
Koulutuskeskus Salpaus 19
Pirkanmaan ammattiopisto 18

Päivitän/korjaan/lisäilen näitä tietoja mahdollisesti sitä mukaan kun kerkeän & jaksan.

2 kommenttia:

  1. Itse kiinnitin huomiota ulkomaalaisperäisten nimien määrään, niitä taitaa olla enemmän kuin keskimäärin Suomessa

    VastaaPoista
  2. Hei! Pohdin tuota kysymystäsi ja kun vastauksesta oli tulossa sen verran pitkä niin tein siitä oman postauksen: http://vilkasu.blogspot.com/2011/11/ovatko-ulkomaalaisperaiset-nimet.html

    VastaaPoista