Ranga (statystyka)

Ranga – numer kolejny obserwacji statystycznej w próbie po uporządkowaniu obserwacji według wartości jednej ze zmiennych. Zwykle stosuje się uporządkowanie rosnące i numerowanie od 1.

Zastąpienie zmiennej przez wyliczone według niej rangi jest operacją zwaną rangowaniem. Rangowanie jest zwykle stosowane w celu uniezależnienia się od rozkładu zmiennej oraz możliwych wystąpień obserwacji odstających. Pozwala ono również na stosowanie metod statystycznych w odniesieniu do zmiennych porządkowych, a nie tylko przedziałowych i ilorazowych. Rangowanie jest też pierwszym krokiem wielu metod statystyki nieparametrycznej, tzw. metod rangowych, takich jak np. korelacja rangowa.

Rangowanie można zastosować do wielu zmiennych w próbie, porządkując każdą zmienną z osobna, nadając odpowiednie rangi, a następnie wracając do pierwotnego ustawienia obserwacji.

Rangi wiązane

W przypadku występowania obserwacji o równej wartości rangowanej zmiennej (tzw. rangi wiązane, ang. tied ranks), zwykle wszystkim tym obserwacjom przypisuje się identyczną rangę, równą średniej z ich numerów kolejnych. Stąd rangi mogą mieć wartości niecałkowite.

Pakiety statystyczne posiadają też możliwość traktowania rang wiązanych w inny sposób, np.

przez przypisanie im największego lub najmniejszego numeru kolejnego z danej serii (co jednak zmienia średnią wyniku),
przez przypisanie numerów kolejnych bez zważania na rangi wiązane (wówczas wyniki rangowania zależą nie tylko od wartości rangowanej zmiennej, ale i od kolejności obserwacji w tabeli).

Przykład

W pięcioelementowej próbie^[a] znajdują się następujące obserwacje zmiennej $x{:}$

x_{1}=0{,}96;\ x_{2}=2{,}43;\ x_{3}=0{,}96;\ x_{4}=0{,}2;\ x_{5}=3{,}5.

Po posortowaniu według wartości x, uzyskujemy kolejność:

x_{4}=0{,}2;\ x_{1}=0{,}96;\ x_{3}=0{,}96;\ x_{2}=2{,}43;\ x_{5}=3{,}5.

Jak widać obserwacje $x_{1}$ i $x_{3}$ mają tę samą wartość zmiennej $x.$ Rangi zmiennej $x{:}$

r_{4}=1;\ r_{1}=2{,}5;\ r_{3}=2{,}5;\ r_{2}=4;\ r_{5}=5.

Po przywróceniu pierwotnej kolejności obserwacji w zbiorze:

r_{1}=2{,}5;\ r_{2}=4;\ r_{3}=2{,}5;\ r_{4}=1;\ r_{5}=5.

Rozkład rang

Jeśli rangom wiązanym nadano wartości średnie, średnia rang wynosi:

{\overline {r}}={\frac {n+1}{2}}.

Wariancja rang wynosi:

\operatorname {var} \ \operatorname {r} ={\frac {n(n+1)}{12}}-{\frac {T'}{n-1}},

gdzie:

T'={\frac {1}{12}}\sum _{j}(t_{j}^{3}-t_{j}),

t_{j}

jest liczbą obserwacji w próbie posiadających tę samą

j

-tą wartość rangi zmiennej

X,

a sumowanie przebiega po wszystkich wartościach rang. Wystarczy zsumować rangi wiązane, bo dla pozostałych

t_{j}^{3}-t_{j}=1^{3}-1=0.

Gdy nie ma rang wiązanych, $T'$ jest równe zeru i wariancja rang zależna jest wyłącznie od liczności próby, a rangi mają rozkład jednostajny dyskretny. Ta właściwość jest podstawą wielu typowych metod rangowych, takich jak rho Spearmana. Sprawia ona także, iż metody rangowe są odporne na obserwacje odstające.

Rangi regularne, ułamkowe i procentowe

Opisane powyżej rangi zwane są regularnymi. Stosowane są też rangi ułamkowe – powstałe przez podzielenie rang regularnych przez liczbę obserwacji danej zmiennej (z wyłączeniem brakujących danych), oraz rangi procentowe, czyli rangi ułamkowe wyrażone w procentach.

Stosowanie rang ułamkowych i procentowych ma sens w przypadku zbiorów z brakami danych. Wówczas rangi ułamkowe i procentowe zapewniają lepszą od rang regularnych porównywalność zmiennych o różnym udziale brakujących danych.

Rangi ułamkowe przy braku rang wiązanych są równe dystrybuancie empirycznej. W nieskończonej populacji nie ma rang wiązanych, co sprawia, że wiele metod rangowych ma swoje odpowiedniki wyrażone za pomocą dystrybuant (np. rho Spearmana).

Przekształcanie rang

Jak napisano wcześniej, zmienne porangowane (przy braku rang wiązanych) mają rozkład jednostajny dyskretny. Z drugiej strony wiele klasycznych metod statystycznych dostosowanych jest do rozkładu normalnego. Stąd niekiedy stosuje się dodatkowe przekształcenie rang, które zapewnia wymagany rozkład.

Dla rozkładu normalnego stosowane są wzory:

Bloma^[1] (najdokładniejsze z wymienionych):

y_{i}=\Phi ^{-1}\left({\frac {r_{i}-{\tfrac {3}{8}}}{n+{\tfrac {1}{4}}}}\right),

Tukeya^[2]:

y_{i}=\Phi ^{-1}\left({\frac {r_{i}-{\tfrac {1}{3}}}{n+{\tfrac {1}{3}}}}\right)

Van der Waerdena (używane do nieparametrycznych testów położenia):

y_{i}=\Phi ^{-1}\left({\frac {r_{i}}{n+1}}\right),

gdzie:

$\Phi ^{-1}$ – odwrotna dystrybuanta rozkładu normalnego,
$r_{i}$ – ranga $i$ -tej obserwacji,
$n$ – liczba niepustych obserwacji w danej zmiennej.

W przypadku istnienia w zbiorze rang wiązanych, należy powyższe wzory zastosować najpierw i dopiero potem uśrednić ich wyniki.

Przekształcenia te są stosowane głównie w testach położenia (ANOVA, testy równości wartości oczekiwanych itp.).

Aby otrzymać rozkład wykładniczy stosuje się wzór Savage’a:

y_{i}=\sum \limits _{j=1}{r_{i}}{\frac {1}{n-j+1}}-1.

Jest on stosowany do testów równości parametru skali w rozkładzie wykładniczym oraz testów równości parametru położenia w rozkładzie wartości ekstremalnych^[3].

Dla testów skali stosowane są też inne przekształcenia rang:

Klotza:

y_{i}=\left(\Phi ^{-1}\left({\frac {r_{i}}{n+1}}\right)\right)^{2}

Siegela-Tukeya, obliczane według schematu:

y_{i}=1

dla

r_{i}=1

y_{i}=2

dla

r_{i}=n

y_{i}=3

dla

r_{i}=n-1

y_{i}=4

dla

r_{i}=2

y_{i}=5

dla

r_{i}=3

y_{i}=6

dla

r_{i}=n-2

y_{i}=7

dla

r_{i}=n-3

y_{i}=8

dla

r_{i}=4

itd.

Ansari-Bradleya:

y_{i}={\frac {n+1}{2}}-\left|r_{i}-{\frac {n+1}{2}}\right|

Mooda:

y_{i}=\left(r_{i}-{\frac {n+1}{2}}\right)^{2}

Zobacz też

Uwagi

↑ Tak mała próba statystyczna została tu przedstawiona ze względów poglądowych, w praktyce byłaby ona zbyt mała do jakichkolwiek analiz.

Przypisy

↑ G. Blom: Statistical Estimates and Transformed Beta Variables. Nowy Jork: John Wiley & Sons, Inc., 1958.
↑ John W. Tukey. The Future of Data Analysis. „Annals of Mathematical Statistics”. 33, 22, 1962.
↑ J. Hajek: A Course in Nonparametric Statistics. San Francisco: Holden-Day, 1969, s. 83.

Bibliografia

Maurice G. Kendall: Rank Correlation Methods. Londyn: Charles Griffin & Company Limited, 1948.
Pomoc do programu SAS

[1] Tak mała próba statystyczna została tu przedstawiona ze względów poglądowych, w praktyce byłaby ona zbyt mała do jakichkolwiek analiz.

[2] G. Blom: Statistical Estimates and Transformed Beta Variables. Nowy Jork: John Wiley & Sons, Inc., 1958.

[3] John W. Tukey. The Future of Data Analysis. „Annals of Mathematical Statistics”. 33, 22, 1962.

[4] J. Hajek: A Course in Nonparametric Statistics. San Francisco: Holden-Day, 1969, s. 83.

[a]

[1]

[2]

[3]