- Deskripce dat (deskriptivní statistika)
- Inference z pozorovaných dat na nepozorované skutečnosti
Typy inference: ze vzorku na populaci, prediktivní, kauzální
Typy inference: ze vzorku na populaci, prediktivní, kauzální
Ženě se narodilo dítě o hmotnosti 2,91 kg. Je to hodně, nebo málo? Jak moc? Měli by mít rodiče obavy?
Převzato z (Spiegelhalter 2019)
Na základě známých (pozorovaných) faktů se snažíme říct něco o skutečnostech, které neznáme (nepozorujeme).
Na rozdíl od příkladu výše (porodní váha) parametry skutečné populace v sociologickém výzkumu většinou neznáme, ale naopak se je snažíme odvodit z omezených pozorování.
Přechod mezi každými dvěma stupni poznávacího procesu v sobě nese nějaká rizika.
Dva klíčové parametry vzorku jsou jeho velikost a reprezentativita.
In January 2018 the BBC News website announced that over the three months to the previous November, ‘UK unemployment fell by 3,000 to 1.44 million.’ The reason for this fall was debated, but nobody questioned whether this figure really was accurate. (Spiegelhalter 2019)
Pokud na základě výběrového souboru konstruujme bodový odhad (například průměr), údaj o chybě odhadu říká, jak moc velká nejistota je s tímto odhadem spojena.
m … sample mean, průměr z dat
\(\mu\) … population mean, průměrná hodnota v nepozorované populaci
s … výběrová směrodatná odchylka
\(\sigma\) … populační směrodatná odchylka
Interval spohlivosti = statistický mainstream pro vyjádření nejistoty intervalovým odhadem
Interval spolehlivosti na hladině 5 % (neboli 95% interval spolehlivosti) překryje skutečnou hodnotu v populaci v 95 % případů.
Základ inferenční statistiky a testování nulových hypotéz v kurzu Statistika 2.
Počet sexuálních partnerů mužů ve věku 35 až 44 let. N = 769.
Převzato z (Spiegelhalter 2019)
Způsob generování intervalů spolehlivosti bez teorie pomocí hrubé výpočetní síly: ze vzorku vytváříme mnoho alternativních vzorků stejné velikosti pomocí náhodného výběru s opakováním (tzv. resampling with replacement). Sledujeme míru variability ve výsledných odhadech sledované statistiky (např. průměru).
Pravděpodobnostní rozložení bodového odhadu (například průměru nebo regresního koeficientu), pokud bychom sesbírali velké množství výběrových souborů a z každého bychom spočítali bodový odhad.
Převzato z (Spiegelhalter 2019)
Pokud známe nebo předpokládáme populační rozdělení, můžeme říct, jak jsou různá pozorování (jednotlivě nebo v kombinaci) překvapivá.
Statistická inference: Máme pouze pozorování reality. Uděláme předpoklad o populačním rozdělení. Pokud je naše pozorování reality příliš překvapivé, zamítneme náš předpoklad.
Zdroj Wikipedia
Pravidlo tří sigma (68-95-99,7)
Typicky v důsledku mnoha malých vlivů. Působení těchto vlivů se častěji “vykrátí” (některé přidávají, jiné ubírají).
Vypadá to děsivě, ale pí a eulerovo číslo jsou konstanty, x zastuje hodnoty proměnné, takže jediné, co vám stačí, je \(\mu\) a \(\sigma\), tedy průměr a směrodatná odchylka.
Jinými slovy: normální rozdělení je plně efinováno dvěma parametry: průměrem a směrodatnou odchylkou.
Spiegelhalter, David. 2019. The Art of Statistics: Learning from Data. UK USA Canada Ireland Australia India New Zealand South Africa: Pelican.