Míra toho, jak dvě proměnné variují společně.
Pro připomenutí rozptyl neboli variance:
\[ var(X) = E[(X - E[X])^2] \] Lze rozepsat:
\[ var(X) = E[(X - E[X]) * (X - E[X])] \]
Kovariance:
\[ cov(X,Y) = E[(X - E[X]) * (Y - E[Y])] \]
Hodnoty kovariance, stejně jako hodnoty rozptylu, nejsou samy o sobě příliš vypovídající (teoreticky nabývají hodnoty od minus nekonečna do plus nekonečna). Proto využíváme standardizovanou verzi kovariance, tedy korelaci, která nabývá hodnot od -1 do 1.
Hodnoty -1 a +1 odpovídají dokonalému lineárnímu vztahu, jako známe z fyzikálních zákonů.
Ta korelace. Bez upřesnění máme korelací zpravidla Pearsonův korelační koeficient. Značíme řeckým \(\rho\) (ró), případně také malým písmenem r.
Výpočet je nadstavba:
\[ \rho = cov(X,Y) / (\sigma_X*\sigma_Y) \] Pearsonův korelační koeficient vypočítáme tak, že kovarianci vydělíme součinem směrodatných odchylek obou proměnných.
Také Spearmanův koeficient pořadové korelace: převede pozorování na pořadí, z nich se vypočítá Pearsonův koeficient. Značí se také \(\rho\), takže v tom může být trochu zmatek.
Pearsonův korelační koeficient lze snadno vypočítat funkci “PEARSON”, resp. “CORREL” (z historických důvodů vývoje softwaru jsou zde dvě stejně se chovající funkce).
Spearmanův korelační koeficient vlastní funkci nemá, ale stačí původní hodnoty převést na pořadí a pak spočítat Pearsonův koeficient.
Značí se řeckým písmenem \(\tau\) (tau). Také pořadový koeficient korelace, ale založený na jiném principu výpočtu než Spearmanův koeficient. Zatímco Spearmanův korelační koeficient používáme na kardinální proměnné s (výrazně) nesymetrickým tvarem (šikmá data), Kendallův koeficient je doporučen k použití pro ordinální data, často je tedy používán spolu s kontingenčními tabulkami (pokud obě proměnné jsou kardinální).
Existuje více verzí koeficientu:
Kauzální vztahy jsou komplexní a mohou působit proti sobě. Například počet let formálního vzdělání může být příčinou vyššího příjmu. Mladší lidí mají častěji vyšší počet let vzdělání. Také seniorita může být příčinou vyššího příjmu. Starší lidé mají často vyšší senioritu. Ve výsledku se tak mohou oba kuazální vztahy “vyrušit”, takže korelaci nebudeme pozorovat.
Code by whuber from: https://stats.stackexchange.com/questions/15011/generate-a-random-variable-with-a-defined-correlation-to-an-existing-variables
Kolují různá doporučení, jak interprertovat:
Silně nedoporučuji taková doporučení používat! Záleží na kontextu.
Interpretace korelačního koeficientu: Piersonův korelační koeficient na druhou vyjadřuje podíl rozptylu v jedné proměnné, který dokážeme predikovat při znalosti druhé proměnné.
Spočítejte
Inspirováno Eliyabeth Lynch
Zdroj Wikipedie