Schody.  Grupa wejściowa.  Przybory.  Drzwi.  Zamki  Projekt

Schody. Grupa wejściowa. Przybory. Drzwi. Zamki Projekt

» Obliczanie wzoru na współczynnik korelacji. Wartość współczynnika korelacji. Zależności między zmiennymi

Obliczanie wzoru na współczynnik korelacji. Wartość współczynnika korelacji. Zależności między zmiennymi

Wzór na współczynnik korelacji

W procesie działalności gospodarczej człowieka stopniowo kształtowała się cała klasa zadań mających na celu identyfikację różnych wzorców statystycznych.

Należało ocenić stopień determinizmu jednych procesów przez inne, konieczne było ustalenie ścisłej współzależności pomiędzy różnymi procesami i zmiennymi.
Korelacja to wzajemny stosunek zmiennych.

Aby ocenić stopień powiązania, wprowadzono współczynnik korelacji.

Fizyczne znaczenie współczynnika korelacji

Współczynnik korelacji ma wyraźne znaczenie fizyczne, jeśli parametry statystyczne zmiennych niezależnych mają graficznie rozkład normalny, taki rozkład jest reprezentowany przez krzywą Gaussa; A zależność jest liniowa.

Współczynnik korelacji pokazuje, jak jeden proces jest zdeterminowany przez inny. Te. Kiedy zmienia się jeden proces, jak często zmienia się proces zależny. To się w ogóle nie zmienia – nie ma zależności, zmienia się za każdym razem natychmiast – całkowita zależność.

Współczynnik korelacji może przyjmować wartości z zakresu [-1:1]

Współczynnik równy zero oznacza, że ​​pomiędzy rozpatrywanymi zmiennymi nie ma związku.
Skrajne wartości zakresu wskazują na całkowitą zależność pomiędzy zmiennymi.

Jeśli wartość współczynnika jest dodatnia, wówczas zależność jest bezpośrednia.

W przypadku współczynnika ujemnego jest odwrotnie. Te. w pierwszym przypadku, gdy zmienia się argument, funkcja zmienia się proporcjonalnie, w drugim przypadku zmienia się odwrotnie.
Gdy wartość współczynnika korelacji znajduje się w środku zakresu, tj. od 0 do 1 lub od -1 do 0 mówią o niepełnej zależności funkcjonalnej.
Im wartość współczynnika jest bliższa skrajnościom, tym większy jest związek między zmiennymi lub wartościami losowymi. Im wartość jest bliższa 0, tym mniejsza jest współzależność.
Zwykle współczynnik korelacji przyjmuje wartości pośrednie.

Współczynnik korelacji jest wielkością niemierzalną

Współczynnik korelacji wykorzystuje się w statystyce, w analizie korelacji, do testowania hipotez statystycznych.

Stawiając hipotezę statystyczną o zależności jednej zmiennej losowej od drugiej, oblicza się współczynnik korelacji. Można na tej podstawie ocenić, czy istnieje związek pomiędzy wielkościami i jak bardzo jest on zbliżony.

Faktem jest, że nie zawsze można zobaczyć związek. Często ilości nie są ze sobą bezpośrednio powiązane, ale zależą od wielu czynników. Może się jednak okazać, że poprzez wiele połączeń pośrednich zmienne losowe okażą się współzależne. Oczywiście nie może to oznaczać ich bezpośredniego połączenia; np. jeśli zniknie pośrednik, może zniknąć także zależność.

7.3.1. Współczynniki korelacji i determinacji. Można określić ilościowo bliskość komunikacji pomiędzy czynnikami i jego centrum(bezpośrednie lub odwrotne), obliczanie:

1) jeżeli konieczne jest określenie liniowej zależności między dwoma czynnikami, - współczynnik pary korelacje: w 7.3.2 i 7.3.3 operacje obliczania sparowanego współczynnika korelacji liniowej według Bravaisa-Pearsona ( R) i sparowany współczynnik korelacji rang Spearmana ( R);

2) jeśli chcemy określić związek między dwoma czynnikami, ale związek ten jest wyraźnie nieliniowy, to relacja korelacyjna ;

3) jeśli chcemy określić związek między jednym czynnikiem a pewnym zbiorem innych czynników, to (lub, co oznacza to samo, „współczynnik korelacji wielokrotnej”);

4) jeśli w izolacji chcemy zidentyfikować związek tylko jednego czynnika z konkretnym drugim, zaliczanym do grupy czynników wpływających na pierwszy, dla którego musimy uwzględnić wpływ wszystkich pozostałych czynników bez zmian – to częściowy współczynnik korelacji .

Żaden współczynnik korelacji (r, r) nie może w wartości bezwzględnej przekraczać 1, czyli –1< r (r) < 1). Если получено значение 1, то это значит, что рассматриваемая зависимость не статистическая, а функциональная, если 0 - корреляции нет вообще.

Znak współczynnika korelacji określa kierunek połączenia: znak „+” (lub brak znaku) oznacza, że ​​połączenie prosty (pozytywny), znak „–” oznacza połączenie odwracać (negatywny). Znak nie ma nic wspólnego z bliskością połączenia

Współczynnik korelacji charakteryzuje zależność statystyczną. Często jednak konieczne jest określenie innego rodzaju zależności, a mianowicie: jaki jest udział określonego czynnika w powstaniu innego, z nim powiązanego czynnika. Ten rodzaj zależności jest w pewnym stopniu umownie scharakteryzowany współczynnik determinacji (D ), określone wzorem D = r 2 ´100% (gdzie r jest współczynnikiem korelacji Bravaisa-Pearsona, patrz 7.3.2). Jeżeli pomiary przeprowadzono w skala zamówień (skala rang), to przy pewnym uszkodzeniu niezawodności zamiast wartości r można do wzoru podstawić wartość r (współczynnik korelacji Spearmana, patrz 7.3.3).

Przykładowo, jeśli otrzymamy jako charakterystykę zależności czynnika B od czynnika A współczynnik korelacji r = 0,8 lub r = –0,8, to D = 0,8 · 2 ´100% = 64%, czyli około 2 ½ 3. W związku z tym udział czynnika A i jego zmian w tworzeniu czynnika B wynosi w przybliżeniu 2 ½ 3 z całkowitego udziału wszystkich czynników w ogóle.

7.3.2. Współczynnik korelacji Bravaisa-Pearsona. Procedura obliczania współczynnika korelacji Bravaisa-Pearsona ( R ) można zastosować tylko w przypadkach, gdy zależność jest rozpatrywana na podstawie próbek o normalnym rozkładzie częstotliwości ( rozkład normalny ) i uzyskiwane poprzez pomiary na skalach interwałowych lub ilorazowych. Wzór obliczeniowy tego współczynnika korelacji jest następujący:



å ( X I - )( y I - )

R = .

n×s x × y

Co pokazuje współczynnik korelacji? Po pierwsze, znak współczynnika korelacji wskazuje kierunek zależności, a mianowicie: znak „–” oznacza, że ​​zależność odwracać, Lub negatywny(istnieje tendencja: wraz ze spadkiem wartości jednego czynnika odpowiednie wartości innego czynnika rosną, a wraz ze wzrostem maleją), a brak znaku lub znaku „+” wskazuje bezpośredni, Lub pozytywny powiązania (istnieje tendencja: wraz ze wzrostem wartości jednego czynnika wzrastają wartości drugiego, a wraz ze spadkiem maleją). Po drugie, bezwzględna (niezależna od znaku) wartość współczynnika korelacji wskazuje na bliskość (siłę) połączenia. Ogólnie przyjmuje się (raczej arbitralnie): dla wartości r< 0,3 корреляция bardzo słaby, często po prostu nie jest to brane pod uwagę, przy cenie 0,3 funta r< 5 корреляция słaby, po 0,5 funta r< 0,7) - przeciętny, przy 0,7 GBP r 0,9 GBP) - mocny i wreszcie dla r > 0,9 - bardzo silny. W naszym przypadku (r » 0,83) zależność jest odwrotna (ujemna) i silna.

Przypomnijmy: wartości współczynnika korelacji mogą mieścić się w przedziale od –1 do +1. Jeśli wartość r wykracza poza te granice, oznacza to, że w obliczeniach popełniono błąd . Jeśli R= 1, oznacza to, że powiązanie nie jest statystyczne, ale funkcjonalne – co praktycznie nigdy nie zdarza się w sporcie, biologii czy medycynie. Choć przy małej liczbie pomiarów możliwy jest losowy dobór wartości dających obraz związku funkcjonalnego, to taki przypadek jest mniej prawdopodobny, im większa jest objętość porównywanych próbek (n), czyli liczba par porównywanych pomiarów.

Tabela obliczeniowa (tabela 7.1) jest skonstruowana zgodnie ze wzorem.

Tabela 7.1.

Tabela obliczeń dla obliczeń Bravaisa – Pearsona

x ja tak, ja (X I - ) (X ja – ) 2 (y I - ) (y ja – ) 2 (X I - )( y I - )
13,2 4,75 0,2 0,04 –0,35 0,1225 – 0,07
13,5 4,7 0,5 0,25 – 0,40 0,1600 – 0,20
12,7 5,10 – 0,3 0,09 0,00 0,0000 0,00
12,5 5,40 – 0,5 0,25 0,30 0,0900 – 0,15
13,0 5,10 0,0 0,00 0,00 0.0000 0,00
13,2 5,00 0,1 0,01 – 0,10 0,0100 – 0,02
13,1 5,00 0,1 0,01 – 0,10 0,0100 – 0,01
13,4 4,65 0,4 0,16 – 0,45 0,2025 – 0,18
12,4 5,60 – 0,6 0,36 0,50 0,2500 – 0,30
12,3 5,50 – 0,7 0,49 0,40 0,1600 – 0,28
12,7 5,20 –0,3 0,09 0,10 0,0100 – 0,03
åx i =137 =13,00 tak i =56,1 =5,1 å( X ja – ) 2 = =1,78 å( y ja – ) 2 = = 1,015 å( X I - )( y ja – )= = –1,24

Od S x = ï ï = ï ï» 0,42, A

S y= ï ï» 0,32, R" –1,24ï (11'0,42'0,32) » –1,24ï 1,48 » –0,83 .

Innymi słowy, musisz bardzo dokładnie wiedzieć, że współczynnik korelacji żargon przekraczać 1,0 w wartości bezwzględnej. Często pozwala to uniknąć rażących błędów, a dokładniej, znaleźć i skorygować błędy popełnione podczas obliczeń.

7.3.3. Współczynnik korelacji Spearmana. Jak już wspomniano, współczynnik korelacji Bravaisa-Pearsona (r) można zastosować tylko w przypadkach, gdy analizowane czynniki są zbliżone do normalnych w rozkładzie częstotliwości, a wartości wariantów uzyskuje się poprzez pomiary koniecznie na skali ilorazowej lub na skali interwałowej , co ma miejsce, jeśli są wyrażone w jednostkach fizycznych. W innych przypadkach znajduje się współczynnik korelacji Spearmana ( R). Jednak ten współczynnik Móc stosować tam, gdzie jest to dozwolone (i pożądane). ! ) zastosuj współczynnik korelacji Bravais-Pearsona. Należy jednak pamiętać, że procedura określania współczynnika według Bravais-Pearsona ma wyższa moc („rozdzielczość umiejętność„), Dlatego R bardziej pouczające niż R. Nawet ze świetnym N odchylenie R może być rzędu ± 10%.

Tabela 7.2 Wzór obliczeniowy współczynnika

x i y i R x R y |d R | d R2 Korelacja Spearmana

13,2 4,75 8,5 3,0 5,5 30,25 R= 1 – . Wos

13,5 4,70 11,0 2,0 9,0 81,00 używamy naszego przykładu

12,7 5,10 4,5 6,5 2,0 4,00 do obliczeń R, ale zbudujemy

12,5 5,40 3,0 9,0 6,0 36,00 inny stół (tabela 7.2).

13,0 5,10 6,0 6,5 0,5 0,25 Podstawmy wartości:

13,2 5,00 8,5 4,5 4,0 16,00 r = 1– =

13,1 5,00 7,0 4,5 2,5 6,25 =1– 2538:1320 » 1–1,9 » – 0,9.

13,4 4,65 10,0 1,0 9,0 81,00 Widzimy: R okazało się, że trochę

12,4 5,60 2,0 11,0 9,0 81,00 więcej niż R, ale to jest co innego

12,3 5,50 1,0 10,0 9,0 81,00 czyli niezbyt dużo. Przecież kiedy

12,7 5,20 4,5 8,0 3,5 12,25 tak mały N wartości R I R

åd R 2 = 423 są bardzo przybliżone, mało wiarygodne, ich rzeczywista wartość może się znacznie różnić, więc różnica R I R przy 0,1 jest nieistotne. ZazwyczajRuważany za analogowyR , ale tylko mniej dokładne. Znaki kiedy R I R pokazuje kierunek połączenia.

7.3.4. Zastosowanie i weryfikacja wiarygodności współczynników korelacji. Określenie stopnia korelacji między czynnikami jest konieczne, aby kontrolować rozwój danego czynnika, czego potrzebujemy: aby to zrobić, musimy wpłynąć na inne czynniki, które w istotny sposób na niego wpływają i poznać zakres ich efektywności. Aby opracować lub wybrać gotowe testy, konieczna jest wiedza o zależnościach między czynnikami: o zawartości informacyjnej testu decyduje korelacja jego wyników z przejawami interesującej nas cechy lub właściwości. Bez znajomości korelacji jakakolwiek forma selekcji jest niemożliwa.

Zauważono powyżej, że w sporcie i ogólnie w praktyce pedagogicznej, medycznej, a nawet ekonomicznej i socjologicznej określenie czego składka , Który jeden czynnik przyczynia się do powstania drugiego. Wynika to z faktu, że oprócz rozważanego czynnika-przyczyny, cel(czynnik, który nas interesuje) działamy, dając każdemu taki czy inny wkład w to i innym.

Uważa się, że miarą wkładu każdego czynnika-przyczyny może być współczynnik determinacji Re ja = r 2 `100%. Na przykład, jeśli r = 0,6, tj. związek pomiędzy czynnikami A i B jest średni, wówczas D = 0,6 2 ´100% = 36%. Wiedząc zatem, że udział czynnika A w tworzeniu czynnika B wynosi w przybliżeniu 1 ½ 3, możesz na przykład przeznaczyć około 1 na ukierunkowany rozwój tego czynnika ½ 3 razy treningowe. Jeżeli współczynnik korelacji wynosi r = 0,4, to D = r 2 100% = 16%, czyli w przybliżeniu 1 ½ 6 jest ponad dwa razy mniej i zgodnie z tą logiką, zgodnie z tą logiką tylko 1 powinien być poświęcony na jego rozwój ½ 6 część czasu szkoleniowego.

Wartości D i dla różnych znaczących czynników dają przybliżone wyobrażenie o ilościowym związku ich wpływów na interesujący nas docelowy czynnik, w celu poprawy, nad którym w rzeczywistości pracujemy nad innymi czynnikami (na przykład biegający skoczek w dal pracuje nad zwiększeniem prędkości swojego sprintu, więc w jaki sposób jest to czynnik, który w największym stopniu przyczynia się do kształtowania wyników w skokach).

Przypomnij sobie to określenie D może zamiast tego R umieścić R, choć oczywiście dokładność oznaczenia okazuje się mniejsza.

Na podstawie selektywny współczynnika korelacji (obliczonego z danych próbnych), nie można wyciągać wniosków o wiarygodności faktu, że istnieje związek pomiędzy rozpatrywanymi czynnikami w ogóle. Aby wyciągnąć taki wniosek z różnym stopniem ważności, standard kryteria istotności korelacji. Ich użycie zakłada liniową zależność pomiędzy czynnikami i rozkład normalny częstotliwości w każdym z nich (czyli nie selektywna, ale ich ogólna reprezentacja).

Można na przykład skorzystać z testów t-Studenta. Jego dis-

równa formuła: t str= –2 , gdzie k jest badanym współczynnikiem korelacji próbki, a N- objętość porównywanych próbek. Otrzymaną obliczoną wartość kryterium t (t p) porównujemy z tabelą na wybranym przez nas poziomie istotności i liczbie stopni swobody n = n – 2. Aby pozbyć się pracy obliczeniowej, można skorzystać ze specjalnego tabela wartości krytyczne współczynników korelacji próbek(patrz wyżej), odpowiadający obecności niezawodnego połączenia między czynnikami (biorąc pod uwagę N I A).

Tabela 7.3.

Wartości graniczne wiarygodności współczynnika korelacji próbki

Liczbę stopni swobody przy wyznaczaniu współczynników korelacji przyjmuje się jako równą 2 (tj. N= 2) Wskazano w tabeli. Wartości 7,3 mają dolną granicę przedziału ufności PRAWDA współczynnik korelacji wynosi 0, czyli przy takich wartościach nie można twierdzić, że korelacja w ogóle występuje. Jeżeli wartość współczynnika korelacji próbki jest wyższa od wskazanej w tabeli, można na odpowiednim poziomie istotności przyjąć, że rzeczywisty współczynnik korelacji nie jest równy zero.

Jednak odpowiedź na pytanie, czy istnieje realny związek pomiędzy rozpatrywanymi czynnikami, pozostawia miejsce na inne pytanie: w jakim przedziale czasu następuje prawdziwe znaczenie współczynnik korelacji, jaki może być w rzeczywistości, dla nieskończenie dużego N? Ten przedział dla dowolnej określonej wartości R I N można obliczyć porównywalne współczynniki, ale wygodniej jest zastosować system wykresów ( nomogram), gdzie każda para krzywych jest zbudowana dla niektórych określonych powyżej N, odpowiada granicom przedziału.

Ryż. 7.4. Granice ufności współczynnika korelacji próbki (a = 0,05). Każda krzywa odpowiada tej wskazanej powyżej N.

Odnosząc się do nomogramu na ryc. 7.4 można wyznaczyć przedział wartości prawdziwego współczynnika korelacji dla obliczonych wartości przykładowego współczynnika korelacji przy a = 0,05.

7.3.5. Relacje korelacyjne. Jeśli korelacja parami nieliniowy, nie da się obliczyć współczynnika korelacji, określić relacje korelacyjne . Wymóg obowiązkowy: cechy należy mierzyć na skali ilorazowej lub skali przedziałowej. Można obliczyć zależność korelacji współczynnika X od czynnika Y oraz zależność korelacyjna czynnika Y od czynnika X- różnią się. Dla małej objętości N z rozpatrywanych próbek reprezentujących czynniki, do obliczenia zależności korelacyjnych można skorzystać ze wzorów:

współczynnik korelacji godz x½y= ;

relacja korelacji h y ½x= .

Tutaj i są średnimi arytmetycznymi próbek X i Y oraz - wewnątrzklasowe średnie arytmetyczne. Oznacza to średnią arytmetyczną tych wartości w próbce czynnika X, z którym identyczne wartości są sprzężone w próbie czynnika Y (na przykład, jeśli w czynniku X znajdują się wartości 4, 6 i 5, z którymi w próbie czynnika Y powiązane są 3 opcje o tej samej wartości 9, to = (4+ 6+5) ½ 3 = 5). Odpowiednio jest to średnia arytmetyczna tych wartości w próbie czynnika Y, które są powiązane z tymi samymi wartościami w próbie czynnika X. Podajmy przykład i przeprowadźmy obliczenia:

X: 75 77 78 76 80 79 83 82 ; Y: 42 42 43 43 43 44 44 45 .

Tabela 7.4

Tabela obliczeń

x ja tak, ja x y x i – x (x i – x) 2 x ja – x y (x jax y) 2
–4 –1
–2
–3 –2
–1
–3
x=79 y=43 S=76 S=28

Dlatego h y ½ x= „0,63.

7.3.6. Współczynniki korelacji częściowej i wielokrotnej. Aby ocenić zależność pomiędzy 2 czynnikami, przy obliczaniu współczynników korelacji domyślnie zakładamy, że żadne inne czynniki nie mają wpływu na tę zależność. W rzeczywistości tak nie jest. Zatem na związek między wagą a wzrostem bardzo istotny wpływ ma spożycie kalorii, ilość systematycznej aktywności fizycznej, dziedziczność itp. Jeśli jest to konieczne przy ocenie związku między 2 czynnikami wziąć pod uwagę znaczący wpływ inne czynniki i jednocześnie niejako odizolować się od nich, uznając je za niezmienne, oblicz prywatny (W przeciwnym razie - częściowy ) współczynniki korelacji.

Przykład: musimy ocenić sparowane zależności pomiędzy 3 znacząco aktywnymi czynnikami X, Y i Z. Oznaczmy R XY (Z) współczynnik korelacji częściowej pomiędzy czynnikami X i Y (w tym przypadku wartość czynnika Z uważa się za niezmienną), R ZX (Y) - współczynnik korelacji częściowej pomiędzy czynnikami Z i X (przy stałej wartości współczynnika Y), R YZ (X) - częściowy współczynnik korelacji pomiędzy czynnikami Y i Z (przy stałej wartości współczynnika X). Korzystając z obliczonych współczynników korelacji prostych par (Bravais-Pearsona). R XY, R XZ i R YZ, m.in

Częściowe współczynniki korelacji można obliczyć korzystając ze wzorów:

r XY – R XZ' R YZ R XZ – R XY”. R ZY R ZY –r ZX ”. R YZ

R XY(Z) = ; R XZ (Y) = ; R ZY(X) =

Ö(1– R 2XZ)(1– R 2 YZ) Ö(1– R 2XY)(1– R 2 ZY) Ö(1– R 2ZX)(1– R 2 YX)

A częściowe współczynniki korelacji mogą przyjmować wartości od –1 do +1. Podnosząc je do kwadratu, otrzymujemy odpowiednie ilorazy współczynniki determinacji , zwany także prywatne miary pewności(pomnóż przez 100 i wyraź jako %%). Częściowe współczynniki korelacji różnią się mniej więcej od prostych (pełnych) współczynników par, co zależy od siły wpływu na nie trzeciego czynnika (jakby niezmiennego). Testowana jest hipoteza zerowa (H 0), czyli hipoteza o braku związku (zależności) między czynnikami X i Y (przy całkowitej liczbie znaków k) obliczając test t ze wzoru: T P. = R XY (Z) ´ ( N–k) 1 ½ 2 ` (1– R 2 XY (Z)) –1 ½ 2 .

Jeśli T R< T a n , hipoteza zostaje przyjęta (zakładamy, że nie ma zależności), ale jeśli TT a n - hipoteza zostaje odrzucona, to znaczy uważa się, że zależność rzeczywiście ma miejsce. T n jest pobierane z tabeli T-Test studencki i k- liczba uwzględnionych czynników (w naszym przykładzie 3), liczba stopni swobody N= n – 3. W podobny sposób sprawdza się pozostałe współczynniki korelacji cząstkowej (zamiast tego we wzorze R XY(Z) zostaje odpowiednio podstawione R XZ(Y) lub R ZY(X)).

Tabela 7.5

Dane początkowe

Ö (1 – 0,71 2)(1 – 0,71 2) Ö (1 – 0,5)(1 – 0,5)

Aby ocenić zależność czynnika X od łącznego działania kilku czynników (tutaj czynników Y i Z), oblicz wartości współczynników korelacji par prostych i korzystając z nich oblicz współczynnik korelacji wielokrotnej R X (YZ):

Ö R 2XY+ R 2XZ – 2 R XY”. R XZ' R YZ

R X(YZ) = .

Ö 1 – R 2 YZ

7.2.7. Współczynnik stowarzyszenia. Często konieczne jest ilościowe określenie zależności pomiędzy jakość znaki, tj. takie cechy, których nie można przedstawić (scharakteryzować) ilościowo, które niezmierzony. Przykładowo zadaniem jest sprawdzenie, czy istnieje związek pomiędzy specjalizacją sportową osób zaangażowanych a takimi cechami osobowości, jak introwersja (koncentracja osobowości na zjawiskach własnego subiektywnego świata) i ekstrawersja (koncentracja osobowości na świecie obiekty zewnętrzne). Symbole prezentujemy w tabeli. 7.6.

Tabela 7.6.

X (lata) Y (razy) Z (razy) X (lata) Y (razy) Z (razy)
Znak 1 Znak 2 Introwercja Ekstrawersja
Gry sportowe A B
Gimnastyka Z D

Oczywiście liczby, którymi tu dysponujemy, mogą dotyczyć jedynie częstotliwości dystrybucji. W tym przypadku oblicz współczynnik asocjacji (inna nazwa to „ współczynnik kontynuacji „). Rozważmy najprostszy przypadek: związek pomiędzy dwiema parami cech i obliczonym współczynnikiem kontyngencji nazywa się tetrachoryczny (patrz tabela).

Tabela 7.7.

a =20 b = 15 A + B = 35
s =15 d=5 C + D = 20
A + C = 35 B + D = 20 N = 55

Obliczeń dokonujemy korzystając ze wzoru:

ad – p.n.e. 100 – 225 –123

Obliczanie współczynników asocjacji (współczynników koniugacji) o większej liczbie cech polega na obliczeniach z wykorzystaniem podobnej macierzy odpowiedniego rzędu.

Współczynnik korelacji to stopień związku między dwiema zmiennymi. Jego obliczenie daje wyobrażenie o tym, czy istnieje związek między dwoma zbiorami danych. W przeciwieństwie do regresji, korelacja nie przewiduje wartości wielkości. Jednakże obliczenie współczynnika jest ważnym krokiem we wstępnej analizie statystycznej. Ustaliliśmy na przykład, że współczynnik korelacji między poziomem bezpośrednich inwestycji zagranicznych a dynamiką PKB jest wysoki. Daje nam to wyobrażenie, że aby zapewnić dobrobyt, konieczne jest stworzenie sprzyjającego klimatu specjalnie dla zagranicznych przedsiębiorców. Na pierwszy rzut oka nie jest to taki oczywisty wniosek!

Korelacja i przyczynowość

Być może nie ma ani jednego obszaru statystyki, który tak mocno ugruntował się w naszym życiu. Współczynnik korelacji stosowany jest we wszystkich obszarach wiedzy społecznej. Jego głównym niebezpieczeństwem jest to, że często spekuluje się na temat jego wysokich wartości, aby przekonać ludzi i przekonać ich do pewnych wniosków. Jednak w rzeczywistości silna korelacja wcale nie wskazuje na związek przyczynowo-skutkowy między wielkościami.

Współczynnik korelacji: wzór Pearsona i Spearmana

Istnieje kilka podstawowych wskaźników charakteryzujących związek pomiędzy dwiema zmiennymi. Historycznie rzecz biorąc, pierwszym jest współczynnik korelacji liniowej Pearsona. Uczy się tego w szkole. Został on opracowany przez K. Pearsona i J. Yule na podstawie pracy ks. Galtona. Współczynnik ten pozwala zobaczyć związek między liczbami wymiernymi, które zmieniają się racjonalnie. Jest zawsze większa niż -1 i mniejsza niż 1. Liczba ujemna oznacza zależność odwrotnie proporcjonalną. Jeśli współczynnik wynosi zero, wówczas nie ma związku między zmiennymi. Równy liczbie dodatniej - istnieje wprost proporcjonalna zależność między badanymi wielkościami. Współczynnik korelacji rang Spearmana pozwala uprościć obliczenia poprzez budowanie hierarchii wartości zmiennych.

Zależności między zmiennymi

Korelacja pomaga odpowiedzieć na dwa pytania. Po pierwsze, czy związek między zmiennymi jest dodatni czy ujemny. Po drugie, jak silne jest uzależnienie. Analiza korelacji to potężne narzędzie, które może dostarczyć tych ważnych informacji. Łatwo zauważyć, że dochody i wydatki rodziny spadają i rosną proporcjonalnie. Zależność tę należy uznać za pozytywną. I odwrotnie, gdy cena produktu rośnie, popyt na niego spada. Zależność tę nazywa się ujemną. Wartości współczynnika korelacji mieszczą się w przedziale od -1 do 1. Zero oznacza, że ​​pomiędzy badanymi wartościami nie ma związku. Im uzyskany wskaźnik jest bliższy wartościom ekstremalnym, tym silniejsza jest zależność (ujemna lub dodatnia). Brak zależności wskazuje współczynnik od -0,1 do 0,1. Musisz zrozumieć, że taka wartość wskazuje jedynie na brak zależności liniowej.

Funkcje aplikacji

Stosowanie obu wskaźników wiąże się z pewnymi założeniami. Po pierwsze, obecność silnego związku nie przesądza o tym, że jedna wielkość determinuje drugą. Być może istnieje trzecia wielkość, która definiuje każdą z nich. Po drugie, wysoki współczynnik korelacji Pearsona nie wskazuje na związek przyczynowo-skutkowy pomiędzy badanymi zmiennymi. Po trzecie, pokazuje wyłącznie zależność liniową. Korelację można zastosować do oceny znaczących danych ilościowych (np. ciśnienia barometrycznego, temperatury powietrza), a nie kategorii takich jak płeć czy ulubiony kolor.

Wielokrotny współczynnik korelacji

Pearson i Spearman zbadali związek między dwiema zmiennymi. Ale co zrobić, jeśli jest ich trzy lub nawet więcej. Tutaj na ratunek przychodzi współczynnik korelacji wielokrotnej. Na przykład na produkt narodowy brutto wpływają nie tylko bezpośrednie inwestycje zagraniczne, ale także polityka monetarna i fiskalna rządu oraz poziom eksportu. Tempo wzrostu i wielkość PKB są efektem współdziałania wielu czynników. Należy jednak zrozumieć, że model korelacji wielokrotnej opiera się na szeregu uproszczeń i założeń. Po pierwsze, wykluczona jest wieloliniowość pomiędzy wartościami. Po drugie, związek między zależnością a zmiennymi na nią wpływającymi uważa się za liniowy.

Obszary zastosowań analizy korelacji i regresji

Ta metoda znajdowania zależności między wielkościami jest szeroko stosowana w statystyce. Najczęściej stosuje się go w trzech głównych przypadkach:

  1. Aby przetestować związki przyczynowo-skutkowe pomiędzy wartościami dwóch zmiennych. W rezultacie badacz ma nadzieję odkryć zależność liniową i wyprowadzić wzór opisujący te zależności między wielkościami. Ich jednostki miary mogą się różnić.
  2. Aby sprawdzić związek między ilościami. W tym przypadku nikt nie określa, która zmienna jest zmienną zależną. Może się okazać, że o wartości obu wielkości decyduje jakiś inny czynnik.
  3. Aby wyprowadzić równanie W takim przypadku możesz po prostu zastąpić w nim liczby i znaleźć wartości nieznanej zmiennej.

Człowiek poszukujący związku przyczynowo-skutkowego

Świadomość jest zaprojektowana w taki sposób, że zdecydowanie musimy wyjaśnić zdarzenia, które dzieją się wokół nas. Człowiek zawsze szuka powiązania pomiędzy obrazem świata, w którym żyje, a informacjami, które otrzymuje. Mózg często tworzy porządek z chaosu. Z łatwością dostrzega związek przyczynowo-skutkowy tam, gdzie go nie ma. Naukowcy muszą specjalnie nauczyć się przezwyciężać tę tendencję. Umiejętność obiektywnej oceny relacji między danymi jest niezbędna w karierze akademickiej.

Stronniczość mediów

Zastanówmy się, jak obecność korelacji może zostać błędnie zinterpretowana. Grupę brytyjskich uczniów zachowujących się niewłaściwie zapytano, czy ich rodzice palą. Następnie test został opublikowany w gazecie. Wyniki wykazały silną korelację pomiędzy paleniem tytoniu przez rodziców a przestępczością ich dzieci. Profesor, który przeprowadził to badanie, zasugerował nawet umieszczenie ostrzeżenia o tym na paczkach papierosów. Jednakże z wnioskiem tym wiąże się wiele problemów. Po pierwsze, korelacja nie pokazuje, która z wielkości jest niezależna. Dlatego całkiem możliwe jest założenie, że szkodliwy nawyk rodziców jest spowodowany nieposłuszeństwem dzieci. Po drugie, nie można z całą pewnością stwierdzić, że oba problemy nie powstały na skutek jakiegoś trzeciego czynnika. Na przykład rodziny o niskich dochodach. Warto zwrócić uwagę na emocjonalny aspekt wstępnych ustaleń profesora prowadzącego badanie. Był zagorzałym przeciwnikiem palenia. Nic więc dziwnego, że w ten sposób zinterpretował wyniki swoich badań.

Wnioski

Błędne interpretowanie korelacji jako związku przyczynowo-skutkowego pomiędzy dwiema zmiennymi może skutkować haniebnymi błędami badawczymi. Problem w tym, że leży to u samych podstaw ludzkiej świadomości. Wiele chwytów marketingowych opiera się na tej funkcji. Zrozumienie różnicy pomiędzy przyczyną a skutkiem oraz korelacją pozwala na racjonalną analizę informacji zarówno w życiu codziennym, jak i w karierze zawodowej.

W Rozdziale 4 przyjrzeliśmy się podstawowym jednoczynnikowym statystykom opisowym — miarom tendencji centralnej i zmienności używanym do opisu pojedynczej zmiennej. W tym rozdziale przyjrzymy się głównym współczynnikom korelacji.

Współczynnik korelacji- dwuwymiarowa statystyka opisowa, ilościowa miara związku (łącznej zmienności) dwóch zmiennych.

Historia rozwoju i zastosowania współczynników korelacji do badania zależności rozpoczęła się właściwie równocześnie z pojawieniem się podejścia pomiarowego do badania różnic indywidualnych – w latach 1870–1880. Pionierem pomiaru zdolności człowieka, a także autorem samego terminu „współczynnik korelacji” był Francis Galton, a najpopularniejsze współczynniki korelacji opracował jego naśladowca Karl Pearson. Od tego czasu badanie związków za pomocą współczynników korelacji jest jednym z najpopularniejszych zajęć w psychologii.

Do chwili obecnej opracowano wiele różnych współczynników korelacji, a zagadnieniu pomiaru relacji za ich pomocą poświęcono setki książek. Dlatego nie pretendując do kompletności, rozważymy tylko najważniejsze, naprawdę niezastąpione w badaniach miary powiązania - Pearsona, Spearmana i Kendalla. Ich wspólną cechą jest to, że odzwierciedlają związek dwóch cech mierzonych w skali ilościowej – rangi lub metryki.

Ogólnie rzecz biorąc, wszelkie badania empiryczne skupiają się na badaniu zależności pomiędzy dwiema lub większą liczbą zmiennych.

PRZYKŁADY

Podajmy dwa przykłady badań nad wpływem pokazywania scen przemocy w telewizji na agresywność młodzieży. 1. Bada się związek pomiędzy dwiema zmiennymi mierzonymi w skali ilościowej (rankingowej lub metrycznej): 1) „czas oglądania programów telewizyjnych zawierających przemoc”; 2) „agresja”.

Czyta się jak tau Kendalla.


ROZDZIAŁ 6. WSPÓŁCZYNNIKI KORELACJI

2. Bada się różnicę w agresywności 2 lub więcej grup młodzieży, różniących się czasem oglądania programów telewizyjnych zawierających sceny przemocy.

W drugim przykładzie badanie różnic można przedstawić jako badanie związku pomiędzy 2 zmiennymi, z których jedna ma charakter mianownikowy (czas oglądania programów telewizyjnych). Dla tej sytuacji opracowaliśmy również nasze własne współczynniki korelacji.

Każde badanie można sprowadzić do badania korelacji; na szczęście wynaleziono różnorodne współczynniki korelacji dla niemal każdej sytuacji badawczej. Jednak w poniższej prezentacji rozróżnimy dwie klasy problemów:

P badanie korelacji - gdy dwie zmienne są prezentowane na skali liczbowej;

badanie różnic - gdy przynajmniej jedna z dwóch zmiennych jest przedstawiona w skali mianownikowej.


Podział ten odpowiada także logice konstruowania popularnych komputerowych programów statystycznych, w których znajduje się menu Korelacje zaproponowano trzy współczynniki (r Pearsona, r Spearmana i x Kendalla) oraz zaproponowano metody porównań grupowych w celu rozwiązania innych problemów badawczych.

KONCEPCJA KORELACJI

Zależności w języku matematyki są zwykle opisywane za pomocą funkcji, które są graficznie przedstawiane w postaci linii. Na ryc. Rysunek 6.1 przedstawia kilka wykresów funkcji. Jeśli zmiana jednej zmiennej o jedną jednostkę zawsze powoduje zmianę innej zmiennej o tę samą wartość, funkcja jest taka liniowy(jego wykres przedstawia linię prostą); jakiekolwiek inne połączenie - nieliniowy. Jeśli wzrost jednej zmiennej jest powiązany ze wzrostem innej, wówczas zależność taka jest pozytywny (bezpośredni); jeśli wzrost jednej zmiennej jest powiązany ze spadkiem innej, wówczas zależność taka jest negatywny (odwrotny). Jeżeli kierunek zmian jednej zmiennej nie zmienia się wraz ze wzrostem (spadkiem) innej zmiennej, to taka funkcja jest monotonny; w przeciwnym razie funkcja zostanie wywołana niemonotoniczny.

Połączenia funkcjonalne, podobne do tych pokazanych na rys. 6.1 to idealizacje. Ich osobliwością jest to, że jednej wartości jednej zmiennej odpowiada ściśle określona wartość innej zmiennej. Jest to na przykład związek pomiędzy dwiema zmiennymi fizycznymi – masą ciała i długością ciała (liniowo dodatni). Jednak nawet w eksperymentach fizycznych zależność empiryczna będzie się różnić od zależności funkcjonalnej z nieuwzględnionych lub nieznanych przyczyn: wahań w składzie materiału, błędów pomiarowych itp.

Ryż. 6.1. Przykłady wykresów często występujących funkcji

W psychologii, podobnie jak w wielu innych naukach, badając związek cech, wiele możliwych przyczyn zmienności tych cech nieuchronnie wypada z pola widzenia badacza. Rezultat jest taki, że nawet Funkcjonalne powiązanie między zmiennymi, które istnieje w rzeczywistości, działa empirycznie jako probabilistyczne (stochastyczne): ta sama wartość jednej zmiennej odpowiada rozkładowi różnych wartości innej zmiennej (i odwrotnie). Najprostszym przykładem jest stosunek wzrostu i masy ciała ludzi. Empiryczne wyniki badania tych dwóch znaków wykażą oczywiście ich pozytywny związek. Ale łatwo się domyślić, że będzie się ona różnić od ścisłej, liniowej, dodatniej – idealnej funkcji matematycznej, nawet przy wszystkich chwytach badacza, aby uwzględnić smukłość lub otyłość badanych. (Jest mało prawdopodobne, aby na tej podstawie komukolwiek przyszło do głowy zaprzeczać istnieniu ścisłego związku funkcjonalnego między długością i masą ciała.)

Zatem w psychologii, podobnie jak w wielu innych naukach, funkcjonalny związek zjawisk można empirycznie zidentyfikować jedynie jako probabilistyczne połączenie odpowiednich cech. Jasne pojęcie o naturze probabilistycznego połączenia daje diagram rozproszenia - wykres, którego osie odpowiadają wartościom dwóch zmiennych, a każdy przedmiot reprezentuje punkt (ryc. 6.2). Współczynniki korelacji wykorzystuje się jako liczbową charakterystykę zależności probabilistycznej.

W dzisiejszym artykule porozmawiamy o tym, jak zmienne można ze sobą powiązać. Korzystając z korelacji, możemy określić, czy istnieje związek pomiędzy pierwszą i drugą zmienną. Mam nadzieję, że ta aktywność będzie dla Was równie przyjemna jak poprzednie!

Korelacja mierzy siłę i kierunek związku między x i y. Na rysunku przedstawiono różne typy korelacji w postaci wykresów punktowych par uporządkowanych (x, y). Tradycyjnie zmienną x umieszcza się na osi poziomej, a zmienną y na osi pionowej.

Wykres A jest przykładem dodatniej korelacji liniowej: wraz ze wzrostem x zwiększa się również y, i to liniowo. Wykres B pokazuje nam przykład ujemnej korelacji liniowej, gdzie wraz ze wzrostem x y maleje liniowo. Na wykresie C widzimy, że nie ma korelacji pomiędzy x i y. Zmienne te nie wpływają na siebie w żaden sposób.

Wreszcie wykres D jest przykładem nieliniowych zależności między zmiennymi. Gdy x rośnie, y najpierw maleje, następnie zmienia kierunek i rośnie.

Pozostała część artykułu skupia się na liniowych zależnościach pomiędzy zmiennymi zależnymi i niezależnymi.

Współczynnik korelacji

Współczynnik korelacji r określa zarówno siłę, jak i kierunek związku pomiędzy zmiennymi niezależnymi i zależnymi. Wartości r mieszczą się w przedziale od -1,0 do +1,0. Gdy r jest dodatnie, związek między x i y jest dodatni (wykres A na rysunku), a gdy r jest ujemne, związek również jest ujemny (wykres B). Współczynnik korelacji bliski zeru wskazuje, że nie ma związku pomiędzy x i y (wykres C).

O sile związku między x i y decyduje to, czy współczynnik korelacji jest bliski - 1,0, czy +- 1,0. Przestudiuj poniższy rysunek.

Wykres A pokazuje doskonałą dodatnią korelację między x i y przy r = + 1,0. Wykres B - idealna ujemna korelacja pomiędzy x i y przy r = - 1,0. Wykresy C i D są przykładami słabszych zależności pomiędzy zmiennymi zależnymi i niezależnymi.

Współczynnik korelacji r określa zarówno siłę, jak i kierunek związku pomiędzy zmiennymi zależnymi i niezależnymi. Wartości r wahają się od - 1,0 (silna negatywna zależność) do + 1,0 (silna pozytywna zależność). Gdy r = 0, nie ma związku między zmiennymi x i y.

Rzeczywisty współczynnik korelacji możemy obliczyć za pomocą następującego równania:

Cóż, cóż! Wiem, że to równanie wygląda jak przerażająca mieszanina dziwnych symboli, ale zanim wpadniemy w panikę, zastosujmy do niego przykład oceny z egzaminu. Załóżmy, że chcę ustalić, czy istnieje związek pomiędzy liczbą godzin, jakie student poświęca na naukę statystyki, a końcowym wynikiem egzaminu. Poniższa tabela pomoże nam rozbić to równanie na kilka prostych obliczeń i sprawić, że będą one łatwiejsze do wykonania.

Jak widać, istnieje bardzo silna dodatnia korelacja między liczbą godzin poświęconych na naukę przedmiotu a oceną z egzaminu. Nauczyciele będą bardzo szczęśliwi, gdy się o tym dowiedzą.

Jaka jest korzyść z ustalenia zależności między podobnymi zmiennymi? Świetne pytanie. Jeśli okaże się, że istnieje taka zależność, możemy przewidzieć wyniki egzaminu na podstawie określonej liczby godzin spędzonych na studiowaniu danego przedmiotu. Mówiąc najprościej, im silniejsze połączenie, tym dokładniejsze będą nasze przewidywania.

Korzystanie z programu Excel do obliczania współczynników korelacji

Jestem pewien, że po zapoznaniu się z tymi okropnymi obliczeniami współczynnika korelacji, będziesz naprawdę zachwycony wiedząc, że Excel może wykonać całą tę pracę za Ciebie, korzystając z funkcji CORREL o następujących cechach:

KOREL (tablica 1; tablica 2),

tablica 1 = zakres danych dla pierwszej zmiennej,

tablica 2 = zakres danych dla drugiej zmiennej.

Na przykład rysunek przedstawia funkcję CORREL zastosowaną do obliczenia współczynnika korelacji dla przykładowej oceny z egzaminu.