Käsittelen tässä tekstissä standardin tekniikan kahden otoksen suhteellisen osuuden z-testistä ja myöhemmässä tekstissä esittelen kenties keinon, joilla testin teknisistä rajoituksista päästään osittain eroon (laskelmat ovat työn alla). Standardin testin rajoitukset ovat ongelmallisia erityisesti rikostilastojen analyysissä, koska rikoksiin syyllistyy tavallisesti hyvin pieni osa populaatiosta vuoden aikana.
Käsitellään tässä vain niin sanottua kaksisuuntaista testiä, koska muutokset yksisuuntaiseen testiin pääsemiseksi ovat suoraviivaisia. Testin kehittelyn muotoilu on omani, joten siitä voi löytyä muun muassa merkintäteknistä huomautettavaa.
Olkoon meillä populaatiot X1 ja X2 ja vastaavasti populaatioiden koot ovat n1 ja n2. Merkitään fk:lla populaatiossa olevien rikollisten määrää (ilmenee tilastosta), jolloin rikollisten määrän matemaattiseksi malliksi otetaan satunnaismuuttuja sk, joka on Bin(nk, fk/nk)-jakautunut (k = 1 tai k = 2), ja oletetaan näiden olevan riippumattomia. Merkitään pk = sk/nk kaikilla k.
Nollahypoteesi H0: p1 = p2 = p
Vaihtoehtoinen hypoteesi H1: p1 on erisuuri kuin p2
Oletetaan H0 todeksi, jolloin saadaan painotettuna keskiarvona harhaton estimaatti p = (p1n1+p2n2)/(n1 + n2).
Seuraava vaihe (erityisesti normaaliapproksimaatio) on testin teknisten rajoitusten kannalta kriittinen.
Tehdään satunnaismuuttujalle sk = nk(sk/nk) normaaliapproksimaatio ilman jatkuvuuskorjausta, jolloin "likimääräiseksi" jakaumaksi saadaan N(nkp, nkp(1-p)). Normaalijakauman ominaisuuksista (Properties 1.) seuraa, että satunnaismuuttuja sk/nk on N(p, p(1-p)/nk)-jakautunut. Tällöin riippumattomuuden ja normaalijakauman ominaisuuksien nojalla p1 - p2 = s1/n1 - s2/n2 on N(0, p(1-p)(1/n1 + 1/n2))-jakautunut.
Näin siis saadaan testisuureelle z = (p1 - p2)/sqrt(p(1-p)(1/n1 + 1/n2)) (joka on standardinormaalijakautunut) sen tavallinen esitys (Two-proportion z-test, equal variances). Wikipediassa esiintyvät rajoitukset liittyvät normaaliapproksimaation kelvollisena pysymiseen ja tähän puutteeseen aion saada kehitystä myöhemmin Poisson-jakaumien avulla.
Testisuureen z itseisarvoltaan suuret arvot (kaksisuuntaisessa testissä) viittaavat siihen, että nollahypoteesi H0 ei päde. Kriittiset arvot hylkäämiselle eri merkitsevyystasoilla ovat seuraavat:
z-testin kriittiset arvot | |||
---|---|---|---|
5 % | 1 % | 0,1 % | |
2-suuntainen testi | 1,960 | 2,576 | 3,291 |
1-suuntainen testi | 1,645 | 2,326 | 3,090 |
Jos jollain on jokin ehdotus, joka parantaa tämän tyyppisen matemaattisen aineksen esitystapaa blogissa, ottaisin sen kiitollisena vastaan.
Ei kommentteja:
Lähetä kommentti