Gapminder, 30 evropských zemí, 2007

Kovariance

Kovariance

Míra toho, jak dvě proměnné variují společně.

Zdroj Wiki

Kovariance - výpočet

Pro připomenutí rozptyl neboli variance:

\[ var(X) = E[(X - E[X])^2] \] Lze rozepsat:

\[ var(X) = E[(X - E[X]) * (X - E[X])] \]



Kovariance:

\[ cov(X,Y) = E[(X - E[X]) * (Y - E[Y])] \]

Korelace

Hodnoty kovariance, stejně jako hodnoty rozptylu, nejsou samy o sobě příliš vypovídající (teoreticky nabývají hodnoty od minus nekonečna do plus nekonečna). Proto využíváme standardizovanou verzi kovariance, tedy korelaci, která nabývá hodnot od -1 do 1.

Hodnoty -1 a +1 odpovídají dokonalému lineárnímu vztahu, jako známe z fyzikálních zákonů.

Pearsonův korelační koeficient

Ta korelace. Bez upřesnění máme korelací zpravidla Pearsonův korelační koeficient. Značíme řeckým \(\rho\) (ró), případně také malým písmenem r.

Výpočet je nadstavba:

\[ \rho = cov(X,Y) / (\sigma_X*\sigma_Y) \] Pearsonův korelační koeficient vypočítáme tak, že kovarianci vydělíme součinem směrodatných odchylek obou proměnných.

Korelace zachycuje lineární vztah

Spearmanův korelační koeficient

Také Spearmanův koeficient pořadové korelace: převede pozorování na pořadí, z nich se vypočítá Pearsonův koeficient. Značí se také \(\rho\), takže v tom může být trochu zmatek.

Zdroj Wiki

Jak spočítat Pearsonův a Spearmanův korelační koeficient v Excelu?

Pearsonův korelační koeficient lze snadno vypočítat funkci “PEARSON”, resp. “CORREL” (z historických důvodů vývoje softwaru jsou zde dvě stejně se chovající funkce).

Spearmanův korelační koeficient vlastní funkci nemá, ale stačí původní hodnoty převést na pořadí a pak spočítat Pearsonův koeficient.

Kendallův korelační koeficient \(\tau\) (nadstavba)

Značí se řeckým písmenem \(\tau\) (tau). Také pořadový koeficient korelace, ale založený na jiném principu výpočtu než Spearmanův koeficient. Zatímco Spearmanův korelační koeficient používáme na kardinální proměnné s (výrazně) nesymetrickým tvarem (šikmá data), Kendallův koeficient je doporučen k použití pro ordinální data, často je tedy používán spolu s kontingenčními tabulkami (pokud obě proměnné jsou kardinální).

Existuje více verzí koeficientu:

  • Kendallův koeficient \(\tau\) - b se doporučuje používat pro čtvercové kontingenční tabulky
  • Kendallův koeficient \(\tau\) - b se doporučuje používat pro obdélníkové kontingenční tabulky

Vyčíslení vztahu mezi HDP na osobu a nadějí na dožití

  • Jakou výši Personova korelačního koeficientu odhadujete?
  • Lze z pohledu na data říct, jestli bude větší Pearsonův, nebo Spearmanův korelační koeficient?
  • Kterému z obou koeficientů byste dali přednost?

Korelace a kauzalita

Korelace není kauzalita

  • Čím více hasičských aut zasahuje při požáru, tím větší škody.
  • Děti, které jsou doučovány, mají horší známky než ty, které doučovány nejsou.
  • Čím více zmrzliny se prodá, tím více lidí se utopí.
  • Děti, které spí s rozsvíceným světlem, spíše v dospělosti trpí krátkozrakostí.
  • Mezi žáky v první třídě je souvislost mezi školními výsledky a znamením zvěrokruhu.
  • Lidé s kratším předloktím žijí déle.

Kauzalita nemusí nutně znamenat korelaci

Kauzální vztahy jsou komplexní a mohou působit proti sobě. Například počet let formálního vzdělání může být příčinou vyššího příjmu. Mladší lidí mají častěji vyšší počet let vzdělání. Také seniorita může být příčinou vyššího příjmu. Starší lidé mají často vyšší senioritu. Ve výsledku se tak mohou oba kuazální vztahy “vyrušit”, takže korelaci nebudeme pozorovat.

Vizuální odhad míry kauzality

Klasifikace korelačního koeficientu dle síly

Kolují různá doporučení, jak interprertovat:

  • 0.1 … slabá asociace
  • 0.3 … středně silná asociace
  • 0.5 … silná asociace

Silně nedoporučuji taková doporučení používat! Záleží na kontextu.

Korelace je míra lineární asociace, ale není to lineární metrika síly vztahu

Interpretace korelačního koeficientu: Piersonův korelační koeficient na druhou vyjadřuje podíl rozptylu v jedné proměnné, který dokážeme predikovat při znalosti druhé proměnné.

Vztahy mezi proměnnými v agregovaných datech

Vztah nehodovosti a příjmu

Spočítejte

  • průměrný příjem ve svém městě
  • průměrnou nehodovost ve svém městě (jako šanci, nikoliv pravděpodobnost, že daná domácnost v daném roce nabourá)

Inspirováno Eliyabeth Lynch

Přijetí na Univerzitu v Berkeley dle pohlaví

Zohlednění fakult

Obecný problém: Simpsonův paradox

Jak poznat, jestli vztah na agregované úrovni platí i na úrovni individuální?

  • Potřebujeme data na individuální úrovni