Kogumite keskväärtuste testimine, kaks sõltumatut valimit
Kas kahe kogumi keskväärtused on võrdsed või erinevad? Testimiseks menüüst
Tools-> Test statistic calculator valida leht 2 means.
Näide 1: andmed on Gretli andmebaasis

Andmefailis stud.gdt on 609 üliõpilase andmed USA Vanderbilti ülikoolist. SATM on nende üliõpilaste matemaatika SAT testi tulemus jagatud 100-ga. Testime, kas SATM testi tulemus oli Vanderbilti ülikooli nais- ja meesüliõpilastel erinev (kahepoolne hüpotees). Kasutame olulisuse nivood 0,05.
Nullhüpotees H0: \(\mu_1 = \mu_2 \). Sisukas hüpotees H1: \(\mu_1 \neq \mu_2 \).
Märgime, et mõlema valimi jaoks kasutame andmefailis olevaid andmeid (Use variable from dataset) ja rippmenüüst valime mõlema valimi korral tunnuse SATM.
Mees- ja naisüliõpilaste eristamiseks kasutame tunnust FEM, mis meeste korral on 0 ja naiste korral 1. Võtame esimesse valimisse meesüliõpilased. Selleks kirjutame esimese valimi korral tunnuse SATM järele
peale tühikut
(FEM=0)
ja vajutame klahvi Enter. Leitakse esimese valimi (meesüliõpilased) keskmine (mean), standardhälve (std.deviation) ja maht (size).
Naisüliõpilaste valimi saamiseks kirjutame teise valimi korral SATM järele peale tühikut
(FEM=1)
ja vajutame klahvi Enter. Leitakse
teise valimi keskmine, standardhälve ja maht.
Reale H0: Difference of means = tuleb kirjutada väärtus 0, mis vastab erinevuse puudumisele nullhüpoteesi korral.
Kuna dispersioone me testinud pole, siis eeldame, et dispersioonid on erinevad, ja eemaldame linnukese Assume common population standard deviation. See eeldus võib aga olla vale ning korrektse tulemuse saamiseks tuleks eelnevalt testida dispersioone. Kui on märgitud Show graph of sampling distribution, siis kuvatakse illustreerimiseks ka ka valimjaotuse graafik. Otsuse vastuvõtmiseks pole seda vaja.
Vajutame OK.

Uues aknas gretl: hypothesis test kuvatakse testimise aruanne.
Null hypothesis on nullhüpoteesile vastav erinevus 0 (keskväärtused on võrdsed).
Seejärel kuvatakse mõlema valimi andmed: maht (n), keskmine (mean), standardhälve (s.d), samuti keskmise standardviga (standard error) ja kogumi keskväärtuse usaldusvahemik (confidence interval) 95%-lise usaldatavusega.
Näiteks meesüliõpilasi (Sample 1) oli 373 ja nende SATM keskmine 6,32547 standardhälbega 0,610984.
Teststatistik arvutatakse eespool toodud valemi põhjal ja selle väärtus on 4,1583.
Teststatistik allub t-jaotusele vabadusastmete arvuga 537.
Sellest jaotusest leitakse teststatistikule vastav olulisuse tõenäosus p nii kahepoolse (two-tailed) kui ka ühepoolse (one-tailed) testi jaoks. See, kumba kasutada, sõltub püstitatud hüpoteesipaarist.
Kuna meil on tegemist kahepoolse hüpoteesiga, siis kasutame väärtust: \(p=3,732 \cdot 10^ {-5} \). Kuna \( p < 0,05 \), võtame vastu sisuka hüpoteesi:
mees- ja naisüliõpilaste SATM testi tulemuste keskmised on erinevad.
Märkus 1: kui kasutatakse ühepoolset hüpoteesi, tuleb olulisuse nivooga võrrelda väärtust one-tailed.
Märkus 2: objektide rühmitamiseks erinevatesse valimitesse peab andmebaasis olema diskreetseid väärtusi omav tunnus. Antud juhul oli see sugu näitav tunnus FEM.
Märkus 3: kui eelnevalt on läbi viidud dispersioonide testimine F-testiga ja selle tulemuseks saadi nullhüpotees (dispersioonid on võrdsed), tuleb märkida Assume common population standard deviation.
- salvestada kas eraldi faili või ikoonina jooksvas sessioonis, klikkides üleval vasakul olevale ikoonile
Save as
;
- printida, klikkides üleval vasakul olevale ikoonile
;
- kopeerida tekstina klahvikombinatsiooniga Ctrl-C või klikkides üleval vasakul olevale ikoonile Copy
.
Näide 2: andmebaas puudub, on olemas kummagi valimi maht, keskmine ja standardhälve

Ülesanne 7.18 õpikust A. Sauga, "Statistika õpik majanduseriala üliõpilastele".
Indias on üle 150 miljoni internetikasutaja. Ajakirjas Journal of Marketing & Communication 2013. aastal ilmunud artiklis analüüsiti 15–35-aastaste internetikasutajate harjumusi. Selleks viidi läbi küsitlus, millele vastas 58 noormeest ja 42 neidu. Üheks küsimuseks oli, kui palju aega kulutatakse nädalas online-mängude mängimiseks. Noormeeste keskmine aeg oli 4,02 tundi nädalas standardhälbega 5,369 tundi ja neidudel 2,43 tundi nädalas standardhälbega 3,569 tundi. Testida olulisuse nivool 0,05, kas neiud mängivad online-mänge vähem. Eeldada, et dispersioonid on erinevad.
Olgu noormehed valim 1 ja neiud valim 2.
Ühepoolne hüpotees: H0: \(\mu_1 \leq \mu_2 \); H1: \(\mu_1 > \mu_2 \).
Kasutame olulisuse nivood 0,05.
Kuna meil andmed puuduvad, siis märget (Use variable from dataset) ei kuvata. Kui aga on avatud mingi teine andmefail, jätame selle märke panemata. Täidame ära vajalikud lahtrid mõlema valimi jaoks ning H0: Difference of means kirjutame 0 (erinevus nullhüpoteesi korral).
Valime OK.

Uues aknas gretl: hypothesis test kuvatakse testimise aruanne.
Null hypothesis on nullhüpoteesile vastav erinevus 0.
Seejärel kuvatakse mõlema valimi andmed: maht (n), keskmine (mean), standardhälve (s.d.), lisaks kogumi keskmise standardviga ja usaldusvahemik (confidence interval).
Teststatistik arvutatakse eespool toodud valemi põhjal ja selle väärtus on 1,77736.
Teststatistik allub t-jaotusele vabadusastmete arvuga 97.
Sellest jaotusest leitakse teststatistikule vastav olulisuse tõenäosus p nii kahepoolse (two-tailed) kui ka ühepoolse (one-tailed) testi jaoks. Kuna meil on tegemist
ühepoolse hüpoteesiga, siis kasutame väärtust: \(p=0,03932\). Kuna \( p < 0,05 \), võtame vastu sisuka hüpoteesi: noormehed mängivad online-mänge rohkem.
Märkus: kui kasutatakse kahepoolset hüpoteesi, tuleb olulisuse nivooga võrrelda väärtust two-tailed p-value.