Opakování

Kardinální data

  • tvar dat graficky (histogram, boxplot, bodový graf)
  • popis centrální tendence (průměr, medián, modus)
  • Dnes: Číselný popis variability dat

Výzkum sexuálního života

  • britský výzkum Natsal-3, 2010-2012, N > 2000, nyní se plánuje čtvrté kolo

  • Uváděný počet sexuálních partnerů, srovnání žen a mužů ve věku 35-44 let

    • Jaký minimální a jaký maximální počet partnerů byl uveden ve skupině žen? mužů?
  • Muži minimum: 0, Muži maximum: 500
  • Ženy minimum: 0, Ženy maximum: 550

(Variační) rozpětí a mezikvartilové rozpětí

  • (Variační) rozpětí = MAX - MIN
  • Mezikvartilové rozpětí = Q3 - Q1
  • Kterou z těchto statistik můžeme považovat za robustní?
  • Mezikvartilové rozpětí muži: 4 až 18
  • Mezikvartilové rozpězí ženy: 3 až 10

Porovnání variačního a mezikvartilového rozpětí 1/3

Porovnání variačního (červené) a mezikvartilového (modré) rozpětí 2/3

Porovnání variačního (červené) a mezikvartilového (modré) rozpětí 3/3

Vyjádřit charakteristiky dat číslem je užitečné…

… Ale obrázek často řekne víc než mnoho čísel

Převzato z Spiegelhalter (2019)

Rozptyl a směrodatná odchylka

Rozptyl (variance)

  • Také disperze, variance, střední kvadratická odchylka.
  • Zkusme odvodit, co je roptyl, z označení “střední kvadratická odchylka”

Rozptyl formálně

Proměnná \(x\) má \(n\) pozorování. Potom rozptyl proměnné je definován:

\[ var(X) = \frac{\sum (x_i - \mu_x)^2}{n} \]

kde \(x_i\) je i-té pozorování, řecké písmeno \(\mu\) se čte mí (anglicky mjů) a značí průměr proměnné x.

Výběrový rozptyl (rozptyl vzorku dat)

\[ s^2_X = \frac{\sum (x_i - \bar{x})^2}{n-1} \]

Rozptyl se počítá (maličko) odlišně, pokud naše data považujeme za vzorek populace (nikoliv za celou poplaci). Ve vzorci výše nyní dělíme jmenovatelem (n-1), namísto pouze n. Výběrový rozptyl je zvykem značit \(s^2\).

Je výběrový rozptyl větší nebo menší číslo než rozptyl?

Proč ve vzorci výše odečítáme právě 1? (nadstavba)

  • Souvisí se stupni volnosti (degree of freedom) a s konceptem vzorku vs. populace
  • Stupeň volnosti = počet nezávislých informací, které vstupují do výpočtu statistického odhadu.

Populace: populační průměr je daný, předchází jednotlivým pozorováním. Pokud máme například vzorek o 3 pozorováních, nemusí v průměru dávat populační průměr, tj. máme tři stupně volnosti.

Vzorek: výběrový průměr vychází ze vzorku, vzorek předchází výběrovému průměru. V případě tří pozorování tedy máme jen dva stupně volnosti, tj. n-1.

Třetí možný zápis rozptylu

E … expectation, tj. očekávaná hodnota, v tuto chvíli stačí vnímat jako synonymum pro průměr.

\[var(X) = E[(X - E[X])^2]\]

Musím umět rozlišit různé typy a zápisy rozptylu?

\[ var(X) = \frac{\sum (x_i - \mu_x)^2}{n} \]

\[ s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1} \]

\[var(X) = E[(X - E[X])^2]\]

  • Odpověď: Ne. Je potřeba umět rozpoznat, že každý z těchto zápisů vyjadřuje rozptyl, když ho vidíte. Je potřeba umět ho odlišit pro zápis například průměru, směrodatné odchylky a dalších konceptů představených později. A je potřeba vlastními slovy dokázat vysvětlit, co to rozptyl je.

Rozptyl je v jiných jednotkách než původní proměnná

  • Samotný číselný údaj o rozptylu zpravidla neříká nic užitečného pro naši lepší představu.
  • Proč ho tedy počítáme?

Směrodatná odchylka

Odmocnina z rozptylu. Ve stejných jednotkách jako původní proměnná. Značíme řeckým sigma.

\[ \sigma_x = \sqrt{var{(X)}} \] Případně výběrová směrodatná odchylka:

\[ s = \sqrt{s^2} \]

Je směrodatná odchylka robustní ukazatel variability?

  • Úvahou?

  • Na příkladu:

    • Směrodatná odchylka z čísel 1, 2, 3, … 100 (sto pozorování)
    • Směrodatná odchylka z čísel 1, 2, 3, … 100, 1000 (sto jedna pozorování)
  • Směrodatná odchylka není příliš robustní, informativní je proto především jen pro symetrická data.

Interpretujte následující tabulku, odpovězte otázky

Převzato z Spiegelhalter (2019)

  • Je reportovaný počet sexuálních partnerů u ženy na 75. percentilu větší nebo menší než je mediánová hodnota pro muže?
  • O kolik je variační rozpětí pro muže větší nebo menší než variační rozpětí pro ženy?
  • Pozorujeme větší variabilitu reportovaného počtu sexuálních partnerů u mužů, nebo u žen?
  • Jaký je rozptyl sledované proměnné pro ženy?

Variační koeficient (VK)

Také “relativní směrodatná odchylka.”

Spočítejte směrodatnou odchylku z následujících datových sad:

  1. První sada: 1, 2, 3
  2. Druhá sada: 101, 102, 103

Směrodatná odchylka je stejná…

… ale v prvním data setu se první a druhé pozorování liší o 100 %, zatímco v druhém o necelé procento…

Jedno řešení je variační koeficient:

\[VK = \sigma / \mu \]

Příklad na využití variačního koeficientu

  • Ceny nafty v ČR (Kč za litr, průměrné hodnoty za poslední 4 týdny): 37, 38, 43, 49
  • Ceny nafty v USA (USD za galon, průměrné hodnoty za poslední 4 týdny): 3.5, 3.6, 4.1, 4.6
  • Ve které zemi jsou vyšší ceny nafty? (nejnovější hodnota)
  • Spočítejte směrodatnou odchylku a variační koeficient pro obě zemi?
  • Který ukazatel je vhodnější pro srovnání míry variabiilty v obou zemích?
  • Jak ještě jinak/lépe byste vyjádřili variabilitu cen v tomto konkrétním příkladu?

Případová studie: variabilita v čistých příjmech v jednotlivých vzdělanostních skupinách

Tipněte si odpovědi na následující otázky

Na úvod rozdělíme respondenty reprezentativního výběrového šetření CVVM Naše společnost do čtyř skupin: ZŠ, SŠ bez maturity, SŠ s maturitou, VŠ (včetně VOŠ).

  1. Která skupina je nejmenší?
  2. Která skupina má největší variační rozpětí?
  3. Která skupina má nějvětší mezikvartilové rozpětí?
  4. Je medián lidí se základním vzděláním vyšší nebo nižší než 1. kvartil vysokoškoláků?

Bodový graf

Bodový graf s vybranými statistikami

Bodový graf s boxplotem

Reference v prezentaci

Následuje seznam referencí, které v prezentaci neměly aktivní proklik na zdroj.

Spiegelhalter, David. 2019. The Art of Statistics: Learning from Data. UK USA Canada Ireland Australia India New Zealand South Africa: Pelican.