Vabalt kasutatav ökonomeetriapakett Gretl

Programmi kodulehekülg http://gretl.sourceforge.net

Kogumi keskväärtuse testimine, üks valim

Kas kogumi keskväärtus \( \mu \) võrdub etteantud väärtusega \( \mu_0 \) või mitte? Testimiseks menüüst
Tools-> Test statistic calculator valida leht mean.

Võimalik kasutada kahepoolset või ühepoolset hüpoteesipaari. Kasutatakse t-testi, teststatistik leitakse valemist $$t = \frac{\bar x - \mu_0}{se},\;\; se=\frac{s}{\sqrt{n}},$$ kus \(\bar x \) on valimi keskmine, \(s\) valimi standardhälve ja \(n\) valimi maht. Need leitakse andmefailis olevate andmete alusel või on need valimi põhjal varem leitud ja andmefail puudub. Vaatame näidet mõlema juhu jaoks.

Näide 1

Aastatel 1985-1986 oli kõigis USA kolledžites matemaatika SAT testi sooritanute keskmine 500. Andmefailis stud.gdt on 609 üliõpilase andmed USA Vanderbilti ülikoolist. SATM on nende üliõpilaste matemaatika SAT testi tulemus jagatud 100-ga. Testime, kas Vanderbilti ülikooli sisseastunute SATM testi tulemus oli suurem kui USA keskmine. Kasutame olulisuse nivood 0,05.

Nullhüpotees H0: \(\mu \leq 5 \). Sisukas hüpotees H1: \(\mu > 5 \).

Märgime, et kasutame andmefailis olevaid andmeid (Use variable from dataset) ja rippmenüüst valime tunnuse SATM. Leitakse valimi keskmine (sample mean), valimi standardhälve (std. deviation) ja valimi maht (sample size). Reale H0: mean= tuleb kirjutada väärtus \( \mu_0\), millega valimi keskmist võrreldakse. Antud juhul on see 5.

Kuna kogumi standardhälvet me ei tea, siis ruudukese Assume standard deviation is population value jätame märkimata. Kui on märgitud Show graph of sampling distribution, siis kuvatakse illustreerimiseks ka ka valimjaotuse graafik. Otsuse vastuvõtmiseks pole seda vaja.

Vajutame OK.

Uues aknas gretl: hypothesis test kuvatakse testimise aruanne.
Null hypothesis on nullhüpoteesile vastav väärtus.
Valimi andmed: maht (size) 609, keskmine (mean) 6,24844, standardhälve (std. deviation) 0,595765.
Teststatistik arvutatakse eespool toodud valemi põhjal ja selle väärtus on 51,7132. Teststatistik allub t-jaotusele vabadusastmete arvuga 608 (selle testi korral on vabadusastmete arv \(n-1\)).
Sellest jaotusest leitakse teststatistikule vastav olulisuse tõenäosus p nii kahepoolse (two-tailed) kui ka ühepoolse (one-tailed) testi jaoks. See, kumba kasutada, sõltub püstitatud hüpoteesipaarist. Kuna meil on tegemist ühepoolse hüpoteesiga, siis kasutame väärtust: \(p=4,4 \cdot 10^ {-225} \). Kuna \( p < 0,05 \), võtame vastu sisuka hüpoteesi: Vanderbilti ülikooli sisseastunute SATM testi tulemus oli suurem kui USA keskmine.

Märkus: kui kasutatakse kahepoolset hüpoteesi, tuleb olulisuse nivooga võrrelda väärtust Two-tailed p-value.

    Aruannet saab
  • salvestada kas eraldi faili või ikoonina jooksvas sessioonis, klikkides üleval vasakul olevale ikoonile Save as Save as;
  • printida, klikkides üleval vasakul olevale ikoonile Print;
  • kopeerida tekstina klahvikombinatsiooniga Ctrl-C või klikkides üleval vasakul olevale ikoonile Copy .

Näide 2

Ettevõte X on tegutsenud juba üle 50 aasta ja seal töötab rohkem kui 1000 töötajat. Ettevõtte juhtkond on alati rõhutanud seda, et nende töötajatel on pikaajaline töökogemus. Uute töötajate värbamiseks koostatud reklaamvoldikus kirjutatakse: "Meie töötajate keskmine tööstaaž on 20 aastat." Kuna juhtkond pole kindel, kas see väide on õige, viiakse läbi küsitlus 50 juhuslikult valitud töötaja hulgas. Küsitluse tulemusena saadakse keskmiseks tööstaažiks 19 aastat standardhälbega 2 aastat. Kas vastav väide võib reklaamvoldikusse jääda või tuleb seda muuta?

Kahepoolne hüpotees: H0: \(\mu = 20 \); H1: \(\mu \neq 20 \).
Kasutame olulisuse nivood 0,05.

Kuna meil andmed puuduvad, siis märget (Use variable from dataset) ei kuvata. Kui aga on avatud aga mingi teine andmefail, jätame selle märke panemata. Täidame ära vajalikud lahtrid:
sample mean 19
std. deviation 2
sample size 50
H0: mean= 20
ja valime OK.

Uues aknas gretl: hypothesis test kuvatakse testimise aruanne.
Null hypothesis on nullhüpoteesile vastav väärtus.
Valimi andmed: maht (size) 50, keskmine (mean) 19, standardhälve (std. deviation) 2.
Teststatistik arvutatakse eespool toodud valemi põhjal ja selle väärtus on -3,53553. Teststatistik allub t-jaotusele vabadusastmete arvuga 49 (selle testi korral on vabadusastmete arv \(n-1\)).
Sellest jaotusest leitakse teststatistikule vastav olulisuse tõenäosus p nii kahepoolse (two-tailed) kui ka ühepoolse (one-tailed) testi jaoks. Kuna meil on tegemist kahepoolse hüpoteesiga, siis kasutame väärtust: \(p=0,0009\). Kuna \( p < 0,05 \), võtame vastu sisuka hüpoteesi: töötajate keskmine tööstaaž ei ole 20 aastat, reklaamvoldikus olev väide ei vasta tõele ja seda tuleks muuta.

Märkus: kui kasutatakse kahepoolset hüpoteesi, tuleb olulisuse nivooga võrrelda väärtust Two-tailed p-value.