Cíle statistiky

  • Deskripce dat (deskriptivní statistika)
  • Inference z pozorovaných dat na nepozorované skutečnosti

Typy inference: ze vzorku na populaci, prediktivní, kauzální

Populace

Porodní hmotnost

Ženě se narodilo dítě o hmotnosti 2,91 kg. Je to hodně, nebo málo? Jak moc? Měli by mít rodiče obavy?

Porodní hmotnost - populační rozdělení

Převzato z (Spiegelhalter 2019)

Proč je dobré znát populační rozdělení?

Inference

Inference

Na základě známých (pozorovaných) faktů se snažíme říct něco o skutečnostech, které neznáme (nepozorujeme).

Na rozdíl od příkladu výše (porodní váha) parametry skutečné populace v sociologickém výzkumu většinou neznáme, ale naopak se je snažíme odvodit z omezených pozorování.

Proces inference

  1. Data
  2. Závěry o výběrovém souboru (a.k.a. sample) (popisná statistika)
  3. Závěry o základním souboru (a.k.a. study population) (inferenční statistika)
  4. Závěry o (cílové) populaci (a.k.a. target population) (freestyle)

Rizika inference

  1. Data
  2. Závěry o vzorku (popisná statistika)
  3. Závěry o studované populaci (inferenční statistika)
  4. Závěry o cílové populaci (freestyle)

  • Přechod mezi každými dvěma stupni poznávacího procesu v sobě nese nějaká rizika.

    • Přechod z 1 na 2: chyby měření (viz kurz Sociologický výzkum)
    • Přechod z 2 na 3: design studie, validita (viz kurz Sociologický výzkum) + inferenční statistika
    • Přechod z 3 na 4: dosažitelnost těch, koho chceme zkoumat

Výběrový soubor a intervalové odhady

Výběrový soubor (čili vzorek)

Dva klíčové parametry vzorku jsou jeho velikost a reprezentativita.

Validita a reliabilita v souvislosti se vzorkem

Problém bodových odhadů ze vzorku

In January 2018 the BBC News website announced that over the three months to the previous November, ‘UK unemployment fell by 3,000 to 1.44 million.’ The reason for this fall was debated, but nobody questioned whether this figure really was accurate. (Spiegelhalter 2019)

  • Je to hodně, nebo málo? S jakou přesností bylo číslo změřeno?

Chyba odhadu (margin of error)

Pokud na základě výběrového souboru konstruujme bodový odhad (například průměr), údaj o chybě odhadu říká, jak moc velká nejistota je s tímto odhadem spojena.

Latinka pro vzorek, řecká písmena pro populaci

m … sample mean, průměr z dat

\(\mu\) … population mean, průměrná hodnota v nepozorované populaci

s … výběrová směrodatná odchylka

\(\sigma\) … populační směrodatná odchylka

Velikost vzorku a přesnost odhadu (zákon velkých čísel)

Interval spolehlivosti

Interval spohlivosti = statistický mainstream pro vyjádření nejistoty intervalovým odhadem

Interval spolehlivosti na hladině 5 % (neboli 95% interval spolehlivosti) překryje skutečnou hodnotu v populaci v 95 % případů.

Problém srovnávání napříč průzkumy

Jak vyváříme intervalové odhady?

Základ inferenční statistiky a testování nulových hypotéz v kurzu Statistika 2.

  • Tato přednáška: bootstraping a intuice za intervalovými odhady
  • Příští přednáška: teorie pravděpodobnosti
  • Další přednáška: centrální limitní věta

Bootstrapování intervaloých odhadů

Počet sexuálních partnerů mužů ve věku 35 až 44 let. N = 769.

Převzato z (Spiegelhalter 2019)

Bootstrapování

Způsob generování intervalů spolehlivosti bez teorie pomocí hrubé výpočetní síly: ze vzorku vytváříme mnoho alternativních vzorků stejné velikosti pomocí náhodného výběru s opakováním (tzv. resampling with replacement). Sledujeme míru variability ve výsledných odhadech sledované statistiky (např. průměru).

Rozložení bodového odhadu (sampling distribution)

Pravděpodobnostní rozložení bodového odhadu (například průměru nebo regresního koeficientu), pokud bychom sesbírali velké množství výběrových souborů a z každého bychom spočítali bodový odhad.

Vlastnosti rozložení bodového odhadu

Převzato z (Spiegelhalter 2019)

Populace jako pravděpodobnostní rozdělení

Různé konceptualizace populace

  • Populace v jednoduchém slova smyslu - konečná populace, např. identifikovatelná skupina jedinců (dospělé osoby v ČR)
  • Superpopulace - větší populace neexistuje, ale my ji předpokládáme

Proč je užitečný koncept superpopulace?

  • Srovnání vražednosti ve dvou zemích
  • Srovnání výpovědí na dvou odděleních
  • Koncept superpopulace zpochybňuje poučku, že: Pokud pozorujeme celou populaci, nelze provádět inferenční statistiku.

Stavební plán pro statistickou inferenci

  • Pravděpodobnostní rozdělení: Teoretický model toho, jak jsou data generována
  • Teorie pravděpodobnosti: postup od modelu populace k datům (jaká data můžeme předpokládat, když známe/předpokládáme model)
  • Inference: postup od dat k modelu populace

Stavební plán pro statistickou inferenci: druhý pokus o vysvětlení

Pokud známe nebo předpokládáme populační rozdělení, můžeme říct, jak jsou různá pozorování (jednotlivě nebo v kombinaci) překvapivá.

Statistická inference: Máme pouze pozorování reality. Uděláme předpoklad o populačním rozdělení. Pokud je naše pozorování reality příliš překvapivé, zamítneme náš předpoklad.

Normální rozdělení (zvonová křivka, Gaussova křivka)

Zdroj Wikipedia

Pravidlo tří sigma (68-95-99,7)

Jak vzniká normální rozdělení? Vytvoření intuice

Typicky v důsledku mnoha malých vlivů. Působení těchto vlivů se častěji “vykrátí” (některé přidávají, jiné ubírají).

Normální rozdělení - formální definice (nadstavba)

Vypadá to děsivě, ale pí a eulerovo číslo jsou konstanty, x zastuje hodnoty proměnné, takže jediné, co vám stačí, je \(\mu\) a \(\sigma\), tedy průměr a směrodatná odchylka.

Jinými slovy: normální rozdělení je plně efinováno dvěma parametry: průměrem a směrodatnou odchylkou.

Různá normální rozdělení

Převzato z Wikipedie)

  • Mezi jaké hodnoty spadá prostředních 68 % modrého rozdělení?
  • Kolik procent prostředních pozorování zeleného rozdělení spadá mezi hodnoty -5 a 1?
  • Kolik procent prostředních pozorování červeného rozdělení spadá mezi hodnoty -1 a 2?

Reference

Spiegelhalter, David. 2019. The Art of Statistics: Learning from Data. UK USA Canada Ireland Australia India New Zealand South Africa: Pelican.