Důležitý koncepční rozdíl

  1. Distribuce náhodné proměnné pozorované na např. jedincích ve výběrovém souboru
  2. Distribuce statistiky teoreticky pozorovatelné na jednotlivých výběrových souborech

Příklad: hod mincí

  • Náhodná proměnná: výsledek hodu mincí (hlava, nebo orel).
  • Agregace pomocí statistického ukazatele: počet hlav

Zdroj obrázku

Kolik hlav očekávat?

Příklad: kolik podporovatelů, když p = 0.2

Centrální limitní teorém (CLT)

Pokud agregujeme náhodnou proměnnou pomocí sumy nebo průměru, potom distribuce této agregující statistiky bude mít tendenci (posilující s rostoucí velikostí výběrového souboru) k normálnímu rozdělení, nehledě na původní distribuci náhodné proměnné.

Vlastnosti distribuce průměru náhodné proměnné dle CLT

Předpoklad: Výběrový soubor je velký.

  • Normální rozdělení
  • Průměr distribuce se překrývá s populačním průměrem náhodné proměnné
  • Směrodatná odchylka distribuce průměru se rovná směrodatné odchylce v populaci děleno odmocninou z n

Směrodatnou odchylku distribuce statistiky nazýváme STANDARDNÍ CHYBA (standard error, S.E.)

Zdroj obrázku Wiki

Kdy platí CLT?

  • (Téměř) nezávisle na distribuci pozorované proměnné, pokud je N dostatečně velké

Dostatečně velké?

  • Zpravidla se uvádí větší než 30, ale záleží na šikmosti proměnné (někdy je potřeba větší N, aby CLT začal platit)
  • U binomického rozdělení se řídíme pravidlem, že \(minimum(n*p; n*q) >= 5\). Pokud podmínka splněna není, na CLT bychom neměli spoléhat.

CLT a mírně šikmá data - ilustrace

  • Šedá: původní data (pozorovaná proměnná)
  • Barvy: rozdělení průměru, n = 5, 20, 40

Zdroj obrázku statisticsbyjim.com

Je vidět, že červené rozdělení v sobě ještě trochu šikmosti má.

Mají lidé v některých oblastech Velké Británie až trojnásobnou pravděpodobnost na rakovinu střev?

Jaké rozdíly sledujeme vs. jaké očekáváme?

Obrázek z Spiegelhalter (2019)

Přerušované čáry zachycují 95% a 99,7% intervaly spolehlivosti pro jednotlivé velikosti územních celků.

Proč nás CLT především zajímá?

Umožňuje nám usuzovat ze vzorku na populaci (podstata inferenční statistiky).

Základní kroky statistické inference

  1. Teorie pravděpodobnosti predikuje interval, ve kterém očekáváme, že se s danou pravděpodobností (např. 95 %) bude nacházet naše statistika (např. průměr) získaná z výběrového souboru (čili vzorku)
  2. Pozorujeme náhodný výběrový soubor (vzorek), spočítáme statistiku (např. průměr)
  3. Spočítáme interval věrohodných populačních parametrů (takových, které jsme ochotni na základě pozorovaných dat považovat za plausibilní, protože naše statistika se vyskytuje v jejich 95% predikčním intervalu). Tomuto intervalu říkáme “95% konfidenční interval”
  4. Význam 95 % je ten, že pokud bychom výběr vzorku opakovali mnohokrát, náš konfidenční interval by skutečný populační parameter (skutečný průměr) překryl v 95 % případů

Číslo 95 je zde zcela arbitrární (i když nejčastěji používané). Můžete za něj dosadit libovolné jiné, třeba 89 nebo 97.

Konfidenční interval

Intuitivně: Interval možných populačních parametrů, pro které je naše pozorovaná statistika věrohodným důsledkem. Ovšem při subjektivním určení hranice “věrohodnosti.”

Exaktně: Pokud bychom náš experiment realizovali mnohokrát, konfidenční interval by v daném procentu případu překrýval skutečnou populační hodnotu.

Počítání konfidenčního intervalu CI na základě CLT

  • Jako bodový odhad použijeme popisnou statistiku z výběrového souboru, např.

\[ \bar{X} \]

  • Pro intervalový odhad: Od bodového odhadu odečteme z-násobek standardní chyby (minimum intervalu) a přičteme z-násobek standardní chyby (maximum intervalu). V případě 95% konfidenčního intervalu \(z ≈ 2\), resp. často se uvádí přesněji \(z = 1,96\)

\[ CI(95) = <\bar{X} - 2*SE; \bar{X} + 2*SE > \]

Z-score

Poloha daného pozorování vyjádřená v počtu směrodatných odchylek od průměru. Má smysl především v kontextu normálního rozdělení.

\[ Zscore = \frac{x_i-\bar{x}}{S_x}, \]

kde \(\bar{X}\) je průměr z výběrového souboru a \(S_x\) je výběrový směrodatná odchylka.

Jak používat z-score v normálním rozdělení

Zdroj obrázku statisticsbyjim.com

Převod z-skóru na pravděpodobnost:

  • Pomocí tabulek
  • Pomocí softwaru

Převod z-skóru na pravděpodobnost pomocí tabulek

Převod z-skóru na pravděpodobnost pomocí softwaru

Například v Excelu můžete použít funkci norm.dist(), resp. norm.s.dist().

Co ovlivňuje konfidenční interval

  • N: čím větší, tím užší
  • rozptyl: čím větší, tím širší
  • požadovaná úroveň spolehlivosti: čím větší, tím širší

Jaká je úroveň spolehlivosti konfidenčních intervalů na obrázku?

Zdroj obrázku Wiki

Nesprávné interpretace konfidenčního intervalu

Číslo 95 si libovolně nahraďte jiným procentem.

  • 95% interval spolehlivost neznamená, že 95 % pozorování původní proměnné leží v tomto intervalu
  • Konkrétní 95% konfidenční interval neznamená, že u 95 % opakovaných experimentů by sledovaná statistika spadla do tohoto intervalu
  • Podle frekventistické teorie pravděpodobnosti (mainstream) konfidenční interval neznamená ani to, že existuje 95% pravděpodobnost, že daný interval překrývá skutečnou populační hodnotu.

Reference

Spiegelhalter, David. 2019. The Art of Statistics: Learning from Data. UK USA Canada Ireland Australia India New Zealand South Africa: Pelican.