Kardinální data
- tvar dat graficky (histogram, boxplot, bodový graf)
- popis centrální tendence (průměr, medián, modus)
- Dnes: Číselný popis variability dat
Kardinální data
britský výzkum Natsal-3, 2010-2012, N > 2000, nyní se plánuje čtvrté kolo
Uváděný počet sexuálních partnerů, srovnání žen a mužů ve věku 35-44 let
… Ale obrázek často řekne víc než mnoho čísel
Převzato z Spiegelhalter (2019)
Proměnná \(x\) má \(n\) pozorování. Potom rozptyl proměnné je definován:
\[ var(X) = \frac{\sum (x_i - \mu_x)^2}{n} \]
kde \(x_i\) je i-té pozorování, řecké písmeno \(\mu\) se čte mí (anglicky mjů) a značí průměr proměnné x.
\[ s^2_X = \frac{\sum (x_i - \bar{x})^2}{n-1} \]
Rozptyl se počítá (maličko) odlišně, pokud naše data považujeme za vzorek populace (nikoliv za celou poplaci). Ve vzorci výše nyní dělíme jmenovatelem (n-1), namísto pouze n. Výběrový rozptyl je zvykem značit \(s^2\).
Je výběrový rozptyl větší nebo menší číslo než rozptyl?
Populace: populační průměr je daný, předchází jednotlivým pozorováním. Pokud máme například vzorek o 3 pozorováních, nemusí v průměru dávat populační průměr, tj. máme tři stupně volnosti.
Vzorek: výběrový průměr vychází ze vzorku, vzorek předchází výběrovému průměru. V případě tří pozorování tedy máme jen dva stupně volnosti, tj. n-1.
E … expectation, tj. očekávaná hodnota, v tuto chvíli stačí vnímat jako synonymum pro průměr.
\[var(X) = E[(X - E[X])^2]\]
\[ var(X) = \frac{\sum (x_i - \mu_x)^2}{n} \]
\[ s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1} \]
\[var(X) = E[(X - E[X])^2]\]
Odmocnina z rozptylu. Ve stejných jednotkách jako původní proměnná. Značíme řeckým sigma.
\[ \sigma_x = \sqrt{var{(X)}} \] Případně výběrová směrodatná odchylka:
\[ s = \sqrt{s^2} \]
Úvahou?
Na příkladu:
Převzato z Spiegelhalter (2019)
Také “relativní směrodatná odchylka.”
Spočítejte směrodatnou odchylku z následujících datových sad:
… ale v prvním data setu se první a druhé pozorování liší o 100 %, zatímco v druhém o necelé procento…
Jedno řešení je variační koeficient:
\[VK = \sigma / \mu \]
Na úvod rozdělíme respondenty reprezentativního výběrového šetření CVVM Naše společnost do čtyř skupin: ZŠ, SŠ bez maturity, SŠ s maturitou, VŠ (včetně VOŠ).
Následuje seznam referencí, které v prezentaci neměly aktivní proklik na zdroj.
Spiegelhalter, David. 2019. The Art of Statistics: Learning from Data. UK USA Canada Ireland Australia India New Zealand South Africa: Pelican.