Wieloczynnikowa analiza wariancji

Następująca wersja przejrzana tej strony, którą oznaczono 29 sty 2019, była oparta na tej wersji.

Wieloczynnikowa analiza wariancji jest testem statystycznym służącym ocenie wpływu wielu zmiennych niezależnych (czynników) na wartość rozpatrywanej zmiennej zależnej. Za analizę wieloczynnikową przyjmuje się taką, w której mamy do czynienia z co najmniej dwoma zmiennymi niezależnymi (czynnikami klasyfikującymi).

Założenia

Wyniki uzyskane metodą analizy wieloczynnikowej uznaje się za prawdziwe, o ile spełnione są następujące założenia:

każda populacja musi mieć rozkład normalny
wariancje w populacjach są równe.

Teoria

Omówmy podstawy analizy wieloczynnikowej na przykładzie 2-czynnikowej analizy wariancji.

Podobnie jak w przypadku analizy jednoczynnikowej, tak i teraz wpływ zmiennych niezależnych na zmienną zależną weryfikowany jest z uwzględnieniem wielu ich poziomów – dla przykładu, zmienna niezależna pn. „satysfakcja pacjenta z terapii lekowej” może być rozpatrywana na 4 poziomach: terapia lekiem I, terapia lekiem II, terapia lekiem III, terapia przy użyciu placebo. Analiza wieloczynnikowa prowadzi zatem do wskazania jak na zmienną zależną wpływają:

czynniki klasyfikujące (zmienne niezależne) – oznaczane z reguły wielkimi literami (A, B, C itd.);
wzajemne interakcje między czynnikami klasyfikującymi (zmiennymi niezależnymi) – oznaczane poprzez wskazanie współzależnych czynników (AB, AC itd.);
poziomy czynników klasyfikujących (zmiennych niezależnych) – oznaczane z reguły małymi literami (a, b, c itd.).

Co istotne, ponieważ wieloczynnikowa analiza wariancji uwzględnia interakcję czynników (zmiennych niezależnych) między sobą – czyni to niezasadnym metodologicznie wielokrotne stosowanie jednoczynnikowych analiz wariancji dla każdego z rozpatrywanych czynników kwalifikujących.

Załóżmy zatem, że spełnione są ww. założenia, a we wszystkich podgrupach wyznaczonych przez czynniki klasyfikujące A (niech tworzy go a-poziomów) i B (niech tworzy go b-poziomów) znajduje się taka sama liczba obserwacji (k).

Układ hipotez zerowych jest następujący:

$H_{A0}$ : Czynnik A nie wpływa na zmienną zależną.
$H_{B0}$ : Czynnik B nie wpływa na zmienną zależną.
$H_{AB0}$ : Wzajemna interakcja czynników AB nie wpływa na zmienną zależną.

Dla każdego z czynników A, B (źródeł zmienności) oraz interakcji AB wyznaczany jest osobny zestaw parametrów, na które składają się: liczba stopni swobody ( $\upsilon _{z}$ ), suma kwadratów odchyleń ( $SS_{z}$ ) oraz średni kwadrat odchyleń ( $MS_{z}$ ). Parametry te stanowią podstawę do obliczenia wartości statystyki testowej ( $F_{z}$ ). Statystyka $F_{z}$ ma, przy założeniu prawdziwości hipotezy zerowej, rozkład F Snedecora o liczbie stopni swobody odpowiadającej $\upsilon _{z}$ i czynnikowi losowemu $e$ (błąd).

Komplet przydatnych wzorów, z uwzględnieniem powyższych uwarunkowań, zestawiono poniżej:

liczba stopni swobody: $\upsilon _{A}=a-1$ , $\upsilon _{B}=b-1$ , $\upsilon _{AB}=(a-1)\cdot (b-1)$ , $e=n-ab$ .

suma kwadratów odchyleń: $SS_{A}=bk\sum \limits _{i=1}^{a}({\overline {y_{i\cdot \cdot }}}-{\overline {y}})^{2}$ , $SS_{B}=ak\sum \limits _{j=1}^{b}({\overline {y_{\cdot j\cdot }}}-{\overline {y}})^{2}$ , $SS_{AB}=k\sum \limits _{i=1}^{a}\sum \limits _{j=1}^{b}({\overline {y_{ij\cdot }}}-{\overline {y_{i\cdot \cdot }}}-{\overline {y_{\cdot j\cdot }}}+{\overline {y}})^{2}$ , $SS_{e}=\sum \limits _{i=1}^{a}\sum \limits _{j=1}^{b}\sum \limits _{l=1}^{k}(y_{ijl}-{\overline {y_{ij\cdot }}})^{2}$ .

średni kwadrat odchyleń: $MS_{A}={\frac {SS_{A}}{\upsilon _{A}}}={\frac {SS_{A}}{a-1}}$ , $MS_{B}={\frac {SS_{B}}{\upsilon _{B}}}={\frac {SS_{B}}{b-1}}$ , $MS_{AB}={\frac {SS_{AB}}{\upsilon _{AB}}}={\frac {SS_{AB}}{(a-1)(b-1)}}$ , $MS_{e}={\frac {SS_{e}}{\upsilon _{e}}}={\frac {SS_{e}}{n-ab}}$ .
statystyka testowa: $F_{A}={\frac {MS_{A}}{MS_{e}}}$ , $F_{B}={\frac {MS_{B}}{MS_{e}}}$ , $F_{AB}={\frac {MS_{AB}}{MS_{e}}}$ .
wartość krytyczna odczytywana z tablic: $F_{v_{A},v_{e}}$ , $F_{v_{B},v_{e}}$ , $F_{v_{AB},v_{e}}$ .

Jeżeli w świetle dokonanych szacunków, przy ustalonej wartości poziomu istotności $\alpha$ , odczytana z tablic wartość krytyczna $F_{v_{z},v_{e}}$ jest mniejsza od wyliczonej wartości statystyki testowej $F_{z}$ – odrzucamy hipotezę zerową $H_{0}$ na rzecz hipotezy alternatywnej $H_{1}$ ^[1].

Zobacz też

Przypisy

↑ Statystyka od A do Z portal edukacyjny poświęcony statystyce [online], www.statystyka.az.pl [dostęp 2018-01-18] (pol.).

[1] Statystyka od A do Z portal edukacyjny poświęcony statystyce [online], www.statystyka.az.pl [dostęp 2018-01-18] (pol.).

[1]