Test de comparatie a dispersiilor (variabile gaussiene independente)



Test de comparatie a dispersiilor (variabile gaussiene independente)



Sa consideram doua variabile gaussiene X si Y, independente, din care prelevam doua esantioane de volume m, respectiv n. Ipotezele de lucru pentru acest caz vor fi:


H0




H1 ,


Se poate arata ca statistica:


W =


este repartizata Fisher F cu (m - 1, n - 1) grade de libertate.


Exemplu.

Sa reluam exemplul cu analiza continutului de hemoglobina din sange la barbati si femei. Atunci am facut presupunerea ca cele doua variabile au aceeasi dispersie. Sa verificam acum daca aceasta ipoteza este adevarata. Calculand, obtinem:


W =


Din tabelul corespunzator acestei valori, obtinem valoarea nivelului de semnificatie corespunzatoare P = 0.44, deci vom accepta ipoteza nula ca cele doua dispersii sunt egale.


7. Test de omogenitate a dispersiilor (variabile gaussiene).

Sa consideram cazul general a k variabile gaussiene Xi, i = 1, 2,, k, , avand mediile si dispersiile,, i = 1, 2,, k. Pentru fiecare in parte dispunem decate un esantion de volum ni, i = 1, 2,, k si sa notam cu n = . Ipotezele statistice pentru verificarea omogenitatii dispersiilor sunt date de:


H0 ,   i = 1, 2,, k


H1 .

Se arata ca statistica de testare, data de:


,


este repartizata cu (k – 1) grade de libertate.


8. Test de omogenitate a mediilor (variabile gaussiene).

Conditiile de mai sus fiind satisfacute, vom nota cu media ponderata a mediilor de sondaj i, i = 1, 2,, k si vom considera ipotezele de testare:


H0 ,i = 1, 2,, k


H1


cu conditia ca dispersiile sa fie egale. In acest caz se considera statistica:


,


care, sub auspiciile ipotezei nule, va urma o repartitie Fisher de tip (k – 1, n – k)


8.8. Teste neparametrice clasice


In continuare, vom trece in revista cateva din cele mai cunoscute teste neparametrice: testul de independenta si testele clasice de ajustare.


1. Testul de independenta.

Testul de independenta se aplica atunci cand se lucreaza cu tabelele de frecventa (de contingenta) care dau repartitia unei populatii statistice in functie de doua variabile calitative. Analiza unor astfel de tabele ne ofera posibilitatea de a identifica eventuale legaturi ce pot exista intre variabilele considerate. Aceasta analiza statistica se aplica indeosebi unor variabile categoriale, cu toate ca se poate extinde si in cazul variabilelor cantitative in analiza tabelelor de corelatii.

Pentru a intelege ce este un tablou de contingenta, sa prezentam urmatorul exemplu. Vom considera o populatie statistica formata din copii, impartiti pe sexe: fetite si baieti si vom studia care este preferinta acestora fata de 3 tipuri de jucarii: A, B, C, pe baza analizei frecventei intr-un esantion de copii. Tabloul de contingenta corespunzator este:



Tip jucarii

A

B

C

Sex

Fetite

50

20

15

Baieti

0

30

54


Din tabloul de mai sus observam repartitia preferintelor pentru cele trei tipuri de jucarii ale fetitelor, respectiv baietilor.

Analiza unui asemenea tablou de contingenta este bazata pe testarea ipotezelor. Astfel, in cazul de mai sus, ipoteza nula se refera la presupunerea ca nu exista nici o relatie semnificativa la nivelul populatiei de copii, intre cele doua clasificari: sexul copiilor si tipurile de jucarii, adica variabilele considerate sunt independente. Vom compara in acest sens frecventele observate cu cele asteptate daca ipoteza nula ar fi adevarata. In acest caz, vom nota cu Oij si Eij frecventele observate, respectiv cele asteptate (daca ipoteza nula ar fi adevarata), unde i indica numarul liniei iar j pe cel al coloanei din tablou. Sub auspiciile ipotezei nule, statistica:


,


urmeaza o repartitie cu (p – 1)(q – 1) grade de libertate, unde p este numarul de linii si q este numarul de coloane din tabloul de contingenta.


Exemple.

1. (Altman, 1991). Sa consideram tabloul de contingenta de mai jos, ce ilustreaza legatura intre statutul marital si consumul de cafea.



Consum cofeina (mg/zi)

0

1-150

151-300

>300

Statut marital

Casatorit

652

1537

598

242

Divortat

sau vaduv

36

46

38

21

Necasatorit

218

327

106

67


Aplicand formula de mai sus obtinem X2 = 51.61, ceea ce corespunde, pentru repartitia cu 32 = 6 grade de libertate, unui nivel de semnificatie P = 0.00, ceea ce inseamna ca exista o asociere inalt semnificativa intre statutul marital si consumul de cafea (variabile dependente).

2. (Jaffard, 1990). In anul 1936 s-a efectuat in Suedia un recensamant privind legatura dintre numarul de copii existenti intr-o familie si venitul anual al acesteia, cu scopul stabilirii daca numarul de copii (i.e. variabila X) al unei familii este independent sau nu de venitul anual (i.e. variabila Y) al familiei respective. Tabloul de mai jos contine datele recensamantului.


Numarul de copii

Venitul anual ( a $/an)

F1 = (0, 1]   F2 = (1, 2] F3 = (2, 3] F4 = (3,


E1 =


E2 =


E3 =


E4 =


E5 =


2161


2755


936


225


39



3577


5081


1753


419


98


2184


2222


640


96


31



1636


1052


306


38



Aplicand testul de independenta s-a obtinut X2 = 569, ceea ce implica pentru 4 x 3 = 12 grade de libertate, un nivel de semnificatie P = 0.00, adica exista o asociere puternica intre venitul anual al unei familii si numarul de copii (in sensul ca venitul anual este invers proportional cu numarul de copii ai unei familii).


In continuare ne vom ocupa de alte testele statistice neparametrice, adica de acele teste statistice care compara o histograma cu o lege de probabilitate teoretica sau analizeaza legatura dintre doua variabile aleatoare fara a face ipoteze asupra naturii repartitiilor lor.

In ceea ce priveste testele de ajustare, care intra in aceasta categorie, ideea de baza este urmatoarea: se considera o familie F de legi de probabilitate pe R, care depind de parametri (e.g. n cazul legii Poisson avem = 1 parametru, i.e. , n timp ce pentru legea normala avem = 2 parametri: si ). Fiind data o variabila aleatoare X, din care avem prelevat un esantion:


ne punem problema testarii ipotezei:


H0 : legea lui  X apartine familiei F.

2. Testul de ajustare.

Testul de ajustare consta in urmatoarea procedura: vom mparti mai intai multimea valorilor realizabile ale lui X, adica R n k clase disjuncte Ai,
i = 1,…, k. Pe de-o parte, se pot calcula probabilitatile teoretice:


pi = P


si astfel dispunem de frecventele teoretice n pi din fiecare clasa n parte, iar pe de alta parte, avem la dispozitie frecventele observate  fi, din esantion. Testul consta n compararea frecventelor teoretice n pi cu cele observate fi si pentru aceasta vom folosi statistica:


,


care, sub auspiciile ipotezei nule, trebuie sa urmeze o lege cu (k - - 1) grade de libertate (conditia de esantionare este n pi > 5, eventual > 10, pentru rezultate consistente).


Exemple.

1. (Mihoc et al., 1977) Testarea normalitatii. Sa presupunem ca din productia unei masini-unelte se preleveaza un numar de 100 de piese, dupa care, cu un aparat de mare precizie se masoara o anumita caracteristica de baza a pieselor (e.g. diametrul piesei n cazul manoperei de strunjire). Se stie, de asemenea, marimea standard a pieselor respective, deci putem calcula erorile de prelucrare ale pieselor esantionului. Se pune problema sa testam daca populatia originara (i.e. erorile tuturor pieselor prelucrate de masina ntr-o anumita perioada) este normal repartizata. Prezentam mai jos tabelul privind repartitia frecventelor erorilor de prelucrare (negative si pozitive).


Interval de eroare

m

Frecventa erorilor

Interval de eroare

m

Frecventa erorilor

, -15)

1

(0, 5)

36

(-15, -10)

9

(5, 10)

10

(-10, -5)

12

(10, 15)

6

(-5, 0)

24

(15,

2


Tabelul complet pentru calculul direct al valorii X2 este prezentat mai jos.

Ai

fi

zi

pi

, -15)

1

-15

-2.13

0.0166

0.0166

-0.66

0.2624

(-15, -10)

9

-10

-1.418

0.0778

0.0612

2.88

1.3553

(-10, -5)

12

-5

-0.706

0.2420

0.1642

-4.42

1.1898

(-5, 0)

24

0

0.0067

0.5021

0.2600

-2

0.1538

(0, 5)

36

5

0.7192

0.7611

0.2591

10.09

3.9293

(5, 10)

10

10

1.4318

0.9236

0.1625

-6.25

2.4038

(10, 15)

6

15

2.1443

0.9838

0.0602

-0.02

0.00006

(15,

2



1.0000

0.0162

0.38

0.0891


Aici, = fi - n pi, = , pi = Aplicand statistica X2, obtinem valoarea X2 9.38364, deci vom obtine, pentru 8 - 2 - 1 = 5 grade de libertate, valoarea nivelului de semnificatie P = 0.094 si deci vom accepta ipoteza nula ca erorile sunt normal repartizate.