Co mówi nam korelacja i co tak naprawdę odkrywają amerykańscy naukowcy?

Co mówi nam korelacja i co tak naprawdę odkrywają amerykańscy naukowcy?

Czy moc generowana przez elektrownie jądrowe w USA jest przyczyną utonięć w basenie, a rosnąca liczna prawników w Portoryko - powodem coraz częstszych śmierci na skutek wypadnięcia z własnego łóżka (także w USA)? Takie wnioskowanie byłoby uprawnione, gdyby wskaźniki korelacyjne potraktować jako dowodzące zależności przyczynowo-skutkowej. Tej części Czytelniczek i Czytelników, którzy zaznali już w swoim życiu piękna wykładów ze statystyki, twierdzenie to może wydawać się „oczywistą oczywistością”; cała reszta, przeciwnie, może uznać je za czarną magię. Mimo tego, w czasach gdy medialne doniesienia pękają w szwach od newsów „ze świata nauki”, a wiadomości kopiowane są przez różne portale informacyjne metodą coraz bardziej przypominającą zabawę w głuchy telefon, warto zastanowić się nad sposobem, w jaki interpretujemy (i w jaki powinniśmy interpretować) badania naukowe, czyli, w dużym skrócie, nad tym, co tak naprawdę odkrywają amerykańscy naukowcy?

Wróćmy jednak na chwilę do podstaw. Czym jest właściwie korelacja? Tłumacząc najprościej - miarą tego, jak silnie związane są ze sobą dwa zjawiska, zwane najczęściej zmiennymi. Korelacja obrazuje więc współwystępowanie dwóch zmiennych, czyli to czy „zachowują się” one – rosną, lub maleją – w podobny sposób. Co za tym idzie, znając współczynnik korelacji, możemy do pewnego stopnia przewidzieć, jak zachowa się jedna zmienna na podstawie zachowania drugiej. Prostym przykładem może być np. wzrost i długość stopy. Wiemy z całą pewnością, że wzrostowi całego ciała towarzyszy także wzrost stopy. Wyobraźmy sobie, że prosimy kilkaset osób podanie tych dwóch parametrów – prawdopodobnie okazałoby się, że im wyższa byłaby osoba badana, tym większą miałaby stopę. Oczywiście odnajdujemy w tym zakresie wiele różnic indywidualnych – możemy spotkać wysokie osoby z małymi stopami i odwrotnie – jednak przy obliczaniu korelacji staramy się odkryć generalną tendencję wskazującą na związek dwóch zmiennych. W tym przypadku mamy zatem do czynienia z tzw. korelacją dodatnią, gdzie większym wartościom jednej zmiennej towarzyszą większe wartości drugiej.

Mając tę wiedzę, możemy zatem z pewnym prawdopodobieństwem przewidywać rozmiar buta nowo spotkanej osoby na podstawie jej wzrostu – mówimy tutaj o zjawisku predykcji, ściśle związanym z pojęciem korelacji. Najprostszy rodzaj korelacji to korelacja liniowa, czyli taka, dla której najlepszym modelem dopasowania jest linia prosta. Tak jak w naszym przykładzie ze wzrostem i rozmiarem stopy, tendencja do wzrostu lub spadku danej zmiennej jest stała (o związku krzywoliniowym mówilibyśmy np. wtedy, gdyby u większości osób po przekroczeniu 200 cm wzrostu rozmiar stopy zaczynałby sukcesywnie się zmniejszać). Oczywiście, badane zjawiska mogą być ze sobą związane w różnym stopniu. Wartości współczynnika r Pearsona, czyli najczęściej używanego współczynnika korelacji mogą przyjmować od -1 do + 1. Dodatni lub ujemny znak daje nam informację o rodzaju związku: oprócz opisanej już korelacji dodatniej możemy zaobserwować istnienie korelację ujemnej, czyli związku odwrotnie proporcjonalnego (np. wysokość rachunku w czasie wieczornego wyjścia i stan konta następnego dnia rano). O sile tego związku świadczy natomiast odległość wartości współczynnika od 0: im jest ona większa (zarówno na plus, jak i na minus), z tym silniejszym związkiem mamy do czynienia. I tak, wartości do ±0.3 traktowane są jako wartości słabe, od ±0.3 do 0.5 to wartości umiarkowane, a ±0.5 – 0.7 – wartości silne. Powyżej 0.7 (i poniżej -0.7) mamy do czynienia z bardzo silną korelacją. Przy wartości współczynnika 0 mówimy o braku korelacji, natomiast 1 oznacza korelację idealną. Możemy zatem stwierdzić, że współczynnik korelacji określa stopień współzmienności dwóch badanych zjawisk. Znając kierunek korelacji, możemy przewidzieć, czy przy zmianie wartości jednej zmiennej, druga z nich wzrośnie lub spadnie; znając jej wartość możemy obliczyć, w ilu przypadkach druga zmienna zachowa się zgodnie z naszymi oczekiwaniami.

Czego jednak nie powie nam korelacja? Nawet jeśli zaobserwujemy silną korelację pomiędzy dwiema zmiennymi A i B, na podstawie samego współczynnika nie jesteśmy w stanie stwierdzić, które ze zjawisk jest przyczyną, a które skutkiem danej zależności – nie wiemy więc, czy A powoduje B, czy może mamy do czynienia z odwrotną sytuacją. W wielu przypadkach (takich jak używany przykład ze wzrostem i rozmiarem stopy) o kierunku zależności możemy wnioskować intuicyjnie. Formalnie jednak takie wnioskowanie nie jest uprawnione: zarówno A może być przyczyną B, jak i B powodować A. Doskonałym przykładem jest pozytywny nastrój i jedzenie czekolady. Wiele badań wskazywało na dodatni związek między tymi dwiema zmiennymi. O ile nie mamy jednak do czynienia z kontrolowanym badaniem eksperymentalnym, równie prawdopodobne są dwa scenariusze: ludzie pod wpływem jedzenia czekolady stają się szczęśliwi ORAZ szczęśliwi ludzie jedzą więcej czekolady. Czynniki te mogą też oddziaływać na siebie wzajemnie (kiedy mam dobry nastrój jem czekoladę po to, żeby mieć jeszcze lepszy).

Badania korelacyjne nie wymagają żadnego manipulowania zmiennymi – wartości korelacji możemy więc obliczyć dla wszelkich dostępnych nam danych, co czyni je szczególnie atrakcyjnymi. W wielu przypadkach nie mamy jednak możliwości skontrolowania dodatkowych czynników, nazywanych zmiennymi zakłócającymi, które mogą mieć wpływ na obserwowaną zależność. I tak za (faktyczną!) korelację pomiędzy liczbą dzieci, a liczbą ptasich gniazd na dachu stać może jeden prosty czynnik, czyli wielkość domu – często większe rodziny mieszkają w większych domach, na dachach których jest po prostu więcej miejsca dla uwicia gniazda. Za korelacją może stać także cała grupa wzajemnie powiązanych ze sobą zmiennych. Idealnym przykładem są tu badania dotyczące pozytywnej korelacji zażywania witaminy C i długości życia (przykład za: King, Rosopa, i Minium, 2011) wykazana przez przeprowadzone na początku lat 90 badania. Prosty i optymistyczny wniosek – witamina C przedłuża życie - nie jest niestety w tym wypadku uprawniony. Osoby zażywające codzienną porcję suplementów mogą stanowić po prostu grupę bardziej dbającą o swoje zdrowie poprzez odpowiednią dietę, ćwiczenia czy nienadużywanie alkoholu i papierosów. Choć poprawne jest stwierdzenie, że osoby zażywające witaminę C żyją dłużej, nie mówi nam to nic o przyczynach tego zjawiska.

Wreszcie – otrzymana korelacja może być też dziełem przypadku, chociaż do pewnego stopnia zabezpiecza nas przed tym wskaźnik zwany poziomem istotności.  Dochodzimy tutaj do przykładów z początku artykułu – wbrew pozorom nie są one częścią zagadki, dowcipu czy dowodem na moją kreatywność. Wszystkie przykłady zaczerpnęłam ze strony Spurious Correlation, której autor Tyler Vigen gromadzi i przedstawia nonsensowne powiązania pomiędzy różnymi zjawiskami, zebrane i obliczone dla dużych kohort ogólnie dostępnych danych (wszystkie korelacje którymi się posłużyłam we wstępie mają współczynnik 0.9, uważne są zatem za związki bardzo silne). Obrazuje tym samym konsekwencję bezrefleksyjnego przyjmowania statystyk korelacyjnych: kierując się standardami przyjmowanymi przez wielu dziennikarzy porywających się na opisywanie badań naukowych, moglibyśmy na przykład stwierdzić, że portorykańscy prawnicy nie tylko dokonują morderstw wypychając ludzi z ich własnych łóżek (r = 0.96), ale także spychają ludzi ze schodów (r = 0.94) oraz odpowiadają za ilość uranu importowanego do Stanów Zjednoczonych (r = 0.87). Oczywiście żyjemy w świecie statystycznego i metodologicznego rygoru, wszelkie tego rodzaju fantazje musimy więc odłożyć na bok: wszystkie zjawiska faktycznie są ze sobą skorelowane na opisywanym poziomie, jednak nie sposób odkryć źródła tego związku bez dogłębnej analizy wszystkich powiązanych z nimi zmiennych.

Jaką wiadomość powinniśmy zatem zabrać do domu? Wbrew pozorom bardzo prostą: korelacja to nie związek przyczynowo skutkowy. Niestety ta podstawowa zasada jest jedną z najczęściej łamanych przez dziennikarzy, publicystów, a nawet polityków. Zanim następnym razem podczas lektury doniesień naukowych na mniej lub bardziej poważnych portalach publicystycznych wyciągniemy zbyt pochopne wnioski i stwierdzimy, że czerwone wino odchudza, witamina C przedłuża życie, a zła dieta w okresie prenatalnym jest bezpośrednią przyczyną ADHD, warto wziąć głęboki oddech, powtórzyć ulubioną mantrę („correlation is not causation”), a następnie zajrzeć do artykułów źródłowych.

Co mówi nam korelacja i co tak naprawdę odkrywają amerykańscy naukowcy?

Ryc.1 – Korelacja pomiędzy przypadkami śmierci na skutek wypadnięcia z własnego łóżka i liczbą prawników w Portoryko, r=0.96 (za:http://tylervigen.com/view_correlation?id=28592).

Źródła:

Ferguson, G. A., Takane, Y., & Zagrodzki, M. (1997). Analiza statystyczna w psychologii i pedagogice. Wydaw. Naukowe PWN. Retrieved from http://lubimyczytac.pl/ksiazka/158328/analiza-statystyczna-w-psychologii...

King, B. M., Rosopa, P., & Minium, E. W. (2011). Statistical reasoning in the behavioral sciences. Wiley.

Odpowiednia długość i wysoka jakość snu ma fundamentalne znaczenie dla jakości życia. Sen jest procesem istotnym dla odnowien... czytaj więcej
Między jakością snu a uzależnieniami lekowymi istnieje współzależność – zmiany w jednym z tych procesów znajdują odzwierciedl... czytaj więcej
Tekst autorstwa Agnieszki Kawuli   „Niechcący podsłuchałam, jak tata mówił do dziadka: – Po prostu mózg umiera. Czy Pan rozum... czytaj więcej
Autorką tekstu jest dr Ewa Krawczyk, właścicielka i autorka bloga Sporothrix Odra uważana jest często za tzw. łagodną chorobę... czytaj więcej