Päivitys: Liitin postinumerot kuntatietoihin ja tulos löytyy viestin loppupuolelta.
Päivitys: MikroPC teki pienen jutun liittyen tähän blogaukseen, esittäen omia teorioitaan aineiston taustasta.
Useat tiedotusvälineet uutisoivat lauantaina 5. marraskuuta 2011 ilmitulleesta tietomurrosta, jonka seurauksena internetiin levitettiin tiedostoa joka sisälsi yli 16 000 suomalaisen henkilötiedot (esim. Helsingin Sanomat, Yle).
Tiedosto levisi välittömästi laajalle ja herätti valtavasti kiinnostusta eri puolilla. Tämän kirjoitushetkellä tiedossa ei ole mistä tiedot ovat alun perin peräisin. Koska tiedostosta löytyy usean tuttavani tiedot ja pohdimme yhdessä mikä niiden lähde on, päätin pureutua hieman tiedoston sisältöön ja koittaa selvittää minkälaisesta kokoelmasta oikeasti on kysymys. Tämä kirjoitus sisältää pintapuolista data-analyysiä tiedoston sisällöstä, kuitenkaan paljastamatta mitään yksityiskohtia henkilökohtaisista tiedoista.
Aineisto sisältää 16102 riviä tietoa. Rivit on indeksoitu henkilötunnusten (hetu) mukaan, joten yksi rivi vastaa yhtä henkilöä. Mahdollisia tietoja henkilötunnuksen lisäksi ovat etunimet, sukunimi, osoite, sähköpostiosoite, puhelinnumero, sekä (ilmeisesti) oppilaitos. Kaikki henkilötunnukset ovat muodoltaan ja tarkistusmerkiltään oikeallisia Suomen henkilötunnuksia.
Tiedot ovat osittain puutteellisia ja esimerkiksi joiltakin henkilöiltä hetun lisäksi löytyy ainoastaan nimi tai sähköpostiosoite. Kuitenkin henkilöitä joille löytyy hetu, etu- ja sukunimet, osoite, sähköpostiosoite ja puhelinnumero, on 11 885 kappaletta. Opiskelupaikka tiedot löytyvät 1 230 henkilöltä.
Henkilötunnuksista laskettavien sukupuolten mukaan listalla on 4 955 naista (n. 31%) ja 11 147 miestä (n. 69%).
Henkilöiden henkilötunnusten mukaan laskettu ikäjakauma on seuraavanlainen: iät ovat väliltä 4-110 vuotta. Keski-ikä on 39 vuotta (1. ja 3. kvartiilit 29..49 vuotta). Yleisin ikä on 43 vuotta (472 kpl). Ääriarvojen tarkastelu paljastaa että 110 vuotias henkilö on Luottokunnan testitunnus. Kyseisen testihenkilön tiedot näyttävät siltä että kyseessä voisi olla todellinen Luottokunnan testitunnus. Toiseksi vanhin henkilö on 100 vuotias, mutta kyseessä on selkeästi keksitty henkilötunnus (joka tosin muodoltaan on oikeallinen), nimi ja osoite. Todellisia yli 90 vuotiaita henkilöitä aineistosta näyttää löytyvän 3 kappaletta. Nuorimman 4 vuotiaan henkilön tiedot näyttävät myös todellisen henkilön tiedoilta. Alle 10 vuotiaita henkilöitä aineistossa on 3 kappaletta, alle 15 vuotiaita 4 kappaletta, ja alle 18 vuotiaita 513 kappaletta. Kuvaajaa tarkistelemalla on kuitenkin selvää että aineisto keskittyy täysi-ikäisiin ihmisiin.
Ikätietojen perusteella voi siis päätellä että kyseessä on rekisteri jonka tietoja ei varmisteta etukäteen (selkeästi keksityt henkilötiedot ja osittain puutteelliset tiedot). Rekisteri sisältää tietoja monen ikäisistä henkilöistä (mukaan lukien pienet lapset). On myös mahdollista että kyseessä on toimija joka käyttää Luottokunnan palveluita.
Sähköpostien domain-nimien perusteella sähköpostit edustavat yleisesti Suomessa käytettyjä sähköpostipalveluita. Yleisimmät domain-nimet ovat gmail.com, hotmail.com, luukku.com, suomi24.fi, pp.inet.fi, kolumbus.fi. Oppilaitosten sähköposteista yliedustettuja ovat Itä-Suomen yliopisto ja sen entiset osayliopistot (Kuopion ja Joensuun yliopisto), mm. domain-nimillä hytti.uku.fi, student.uef.fi, cc.joensuu.fi, joensuu.fi, uef.fi.
Domain | Lukumäärä |
gmail.com | 1859 |
hotmail.com | 1840 |
luukku.com | 800 |
suomi24.fi | 388 |
pp.inet.fi | 330 |
kolumbus.fi | 328 |
netti.fi | 222 |
elisanet.fi | 210 |
hytti.uku.fi | 207 |
dnainternet.net | 143 |
student.uef.fi | 105 |
jippii.fi | 102 |
yahoo.com | 100 |
windowslive.com | 97 |
cc.joensuu.fi | 93 |
saunalahti.fi | 93 |
joensuu.fi | 78 |
Yleisin postinumero on Helsingin 00940 (120 kpl), toisena Kuopion 70100 (94 kpl), kolmantena Joensuun 80100 (92 kpl). Muuten listan kärkipää sisältää lähinnä pääkaupunkiseudun postinumeroita. Silmämääräisesti Kuopio ja Joensuu tuntuvat siis olevan asukasmääräänsä nähden yliedustettuina myös postinumeroissa.
Postinumero | Lukumäärä |
00940 | 120 |
70100 | 94 |
80100 | 92 |
00980 | 91 |
01450 | 91 |
01900 | 89 |
05200 | 84 |
01200 | 83 |
01600 | 75 |
80140 | 75 |
Liitettäessä postinumerot kuntatietoihin, listan kärki näyttää seuraavalta:
Kunta | Lukumäärä |
Helsinki | 1657 |
Vantaa | 971 |
Espoo | 591 |
Kuopio | 520 |
Joensuu | 422 |
Tampere | 402 |
Hyvinkää | 299 |
Turku | 223 |
Oulu | 140 |
Järvenpää | 135 |
Kerava | 130 |
Riihimäki | 128 |
Lahti | 126 |
Pori | 111 |
Jyväskylä | 99 |
Hämeenlinna | 98 |
Tuusula | 96 |
Nurmijärvi | 89 |
Rajamäki | 84 |
Lappeenranta | 81 |
Klaukkala | 69 |
Nummela | 59 |
Vaasa | 55 |
Porvoo | 54 |
Lohja | 51 |
Kajaani | 50 |
Seinäjoki | 50 |
Mikkeli | 48 |
Varkaus | 46 |
Kotka | 41 |
Karkkila | 40 |
Savonlinna | 40 |
Aikaisemmin havaittu Kuopion ja Joensuun yliedustus näyttää vahvistuvan myös kuntakohtaisella tarkastelulla.
Listattujen opiskelupaikkojen kärkipäässä ovat Tampereen ammattiopisto (103 kpl) ja Poliisiammattikorkeakoulu (95 kpl). Yllättäen Kuopion, Joensuun, tai Itä-Suomen yliopistot eivät sijoitu tällä listalla korkealle, vaikka näissä oppilaitoksissa opiskelevia ihmisiä listalta löytyy paljon. Tämän johdosta on hankalaa tulkita ovatko kyseisessä kentässä olevat tiedot ihmisten nykyisiä opiskelupaikkoja vai jotain muuta tietoa.
Oppilaitos | Lukumäärä |
Tampereen ammattiopisto | 103 |
Poliisiammattikorkeakoulu | 95 |
Turun ammatti-instituutti | 44 |
Tampere | 30 |
Helmi Liiketalousopisto | 29 |
Tampereen Ammattiopisto | 27 |
Oulun seudun ammattiopisto | 21 |
Vaasan ammattiopisto | 20 |
Koulutuskeskus Salpaus | 19 |
Pirkanmaan ammattiopisto | 18 |
Päivitän/korjaan/lisäilen näitä tietoja mahdollisesti sitä mukaan kun kerkeän & jaksan.
Itse kiinnitin huomiota ulkomaalaisperäisten nimien määrään, niitä taitaa olla enemmän kuin keskimäärin Suomessa
VastaaPoistaHei! Pohdin tuota kysymystäsi ja kun vastauksesta oli tulossa sen verran pitkä niin tein siitä oman postauksen: http://vilkasu.blogspot.com/2011/11/ovatko-ulkomaalaisperaiset-nimet.html
VastaaPoista