torstai 1. tammikuuta 2009

Rikostilastojen normalisointi

Helsingin Sanomissa 30.12. julkaistu sosiaalitutkimuksen menetelmien professori Pertti Tötön ansiokas kolumni oli ystävällisesti otettu talteen Homma-foorumilaisten toimesta.

Valitettavasti Töttö ei käsittele tulosten tilastollista merkitsevyyttä, mutta enköhän saa sen puutteen tässä blogissa aikanaan korjattua. Teoreettisesti ja keskustelun korkean laadun kannalta kyseessä on ratkaisevan tärkeä asia, jota en kuitenkaan ole suomalaisten rikostilastojen yhteydessä nähnyt huomioitavan. Olisin ilman muuta odottanut tällaiseen problematiikkaan pureutumista esimerkiksi Osmo Soininvaaralta, mutta valitettavasti häneltä on nähty vain epätarkkaa käsien heiluttelua.

Tällä kertaa aiheenani on kuitenkin rikostilastojen normalisointi eli eri kansanryhmien erilaisen demografisen rakenteen huomiointi laskelmassa. Käytän tässä esityksessä yksinkertaisuuden vuoksi esimerkkinä raiskaustilastoja, mutta sopiva normalisointi tietenkin riippuu rikostyypistä.

Töttö tyytyy laskemaan merkittävimpien rikoksiin syyllistyneiden ikäluokkien edustajien lukumäärät yhteen ja suhteuttaa rikosmäärän niihin (menetelmä muistuttaa aikaisemmin itse käyttämääni), joskaan vuosien yhdistämisen tekniikkaa professori ei tarkemmin kuvaile. Tämä tekniikka on eräs aivan kelvollinen mahdollisuus normalisointiin ja tulen sitä itsekin myös jatkossa käyttämään. Toisaalta esimerkiksi raiskauksiin syyllistyneet eivät kuitenkaan kaikki mahdu Tötön mainitsemaan ikähaarukkaan, eikä jakauma varsinkaan ole tasainen näiden ikäluokkien välillä. Näihin puutteisiin yritän tänään saada parannusta.

Tilastokeskus luokittelee rikoksiin syyllistyneet valitettavasti hieman ongelmallisiin luokkiin (tarkoitan luokan koon vaihtelua), joten tyydyn tässä esityksessä olettamaan jakauman tasaiseksi kunkin luokan sisällä. Lasken myös kaikkien tilastossa esiintyvien vuosien (2005-2007) määrät yhteen saadakseni mahdollisimman paljon dataa. Samaa normalisointia sitten käytetään kaikkiin kansanryhmiin, koska kansanryhmäkohtainen normalisointi vaatisi huomattavasti suurempia datamääriä, eikä se ole Suomen oloissa mahdollista.

Raiskauksista tuomittujen ikäjakauma:

Kyseisen jakauman avulla lasketaan kullekin demografiselle rakenteelle vertailuluku, jonka avulla raiskausten lukumäärä suhteutetaan. Tilastokeskuksen tiedot ikäjakaumista on luokiteltu viiden vuoden luokkiin, joiden sisällä oletan väen tasaisesti jakautuneeksi.

Raiskauksista tuomittujen jakauma on oleellisilta osiltaan ilmaistavissa 80-paikkaisena vektorina (ikäluokat 0-79) ja lisäksi väestöryhmän edustajien ikäluokittainen lukumäärä voidaan ilmaista 80-paikkaisena vektorina, joiden pistetuloa käytän vertailulukuna. Vertailuluvun käyttö vaikuttaa jonkin verran tilastollisen merkitsevyyden tutkimukseen, mutta siihen joudun palaamaan myöhemmin.

Esimerkki vuoden 2005 osalta: kansalaisuudeltaan suomalaiset (miehet) saavat vertailuluvukseen 33648,3 ja irakilaiset 33,7. Selvitettyjä raiskauksia oli suomalaisten toimesta 295 ja irakilaisten toimesta 12, joten irakilaisten yliedustuksen kerroin suomalaisiin verrattuna on 40,6. Pelkästään suomalaisten ja irakilaisten miesten kokonaismäärän perusteella saataisiin kerroin 56,1 ja Tötön tekniikalla kerroin 40,2. Mielestäni omani on tuloksista tarkimmin perusteltu ja ainakin näillä väestöryhmillä antaa melkein saman tuloksen kuin Tötön tekniikka.

Aiemman rikostilastoja käsitelleen tekstini kommenteissa Touko Apajalahti nosti esiin tarpeen väestöryhmien sosioekonomisen tilanteen normalisointiin laskelmassa ja periaatteessa olen ideasta samaa mieltä. Valitettavasti Tilastokeskuksesta saatavissa oleva data ei suoraan mahdollista tämän tyyppistä laskelmaa, joten parhaassakin tapauksessa joudutaan toimimaan hyvin karkeiden oletusten pohjalta, jos tällaisia tuloksia yritetään saada. Jos yleisö vaatii ja onnistun löytämään laskelman mahdollistavan datan äärelle, voin toki yrittää jotain tämän suuntaista.

On myös hyvin kyseenalaista, voidaanko kantasuomalaisista koskaan ottaa jotain mielekästä sosioekonomista osajoukkoa, joka täysin tyydyttävästi vastaisi tänne tulevien maahanmuuttajien tilannetta (riippuu tietenkin osittain maahanmuuttajaryhmästä). Edistysaskeleet tähän suuntaan olisivat arvokkaita, mutta pilkkovat ennestäänkin pientä datamäärää osiin, mikä on analyysin kannalta ongelmallista. Tässä mielessä lienee parasta pyrkiä tekemään vertailuja maahanmuuttajaryhmien välillä (sosioekonominen tausta silloinkin huomioiden, jos mahdollista).

Ei kommentteja: