Typy proměnných - opakování

  • nominální

  • ordinální

  • kardinální (metrické, numerické, kvantitativní)

    • intervalové
    • poměrové

  • numerické diskrétní
  • numerické spojité

Empirická distribuce dat

Tvar dat

Moudrost davu: počet fazolek ve sklenici

Zdroj: Spiegelhalter (2019)

Jak vizualizovat mnoho dat?

Zdroj (Spiegelhalter 2019)

Míry centrality

Míry centrality (measures of central tendency)

Míry centrality se také nazývají míry polohy (measures of the location of the data distribution).

  • (aritmetický) průměr - suma dělená počtem případů
  • medián - prostřední hodnota z řady seřazené podle velikosti
  • modus - nejčastější hodnota

Aritmetický průměr z dat (sample mean)

\[\bar{x} = (x_1 + x_2 + … +x_n)/n\]

kde \(x_1, x_2, …, x_n\) jsou jednotlivá pozorování a \(n\) je počet těchto pozorování.

Zkrácený zápis:

\[\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i \]

Průměr a princip páky

Průměr reprezentuje data v určitém smyslu, ale nemusí být reprezentativní v jiném smyslu.

Obrázek z brilliant.org

Už jsme viděli: Jak se šíří COVID

Převzato z Spiegelhalter and Masters (2021)

Šikmost (Skewness)

  • Ve kterém ze tří obrázků výše bude průměr větší/menší než medián? Kdy bude stejný?

Měli bychom tedy raději používat medián?

Studie Evropské centrální banky v roce 2013: německá mediánová domácnost je výrazně chudší než domácnosti středomořských zemí.

Zdroj dat je článek na voxeu.org

Mediánová vs. průměrná domácnost

Zohlednění velikosti domácností

Kvantily: Kvartily, kvintily, decily, percentily

Kvartily

  • Analogické k mediánu, dělí seřazená data na čtyři stejné části.
  • Kolik je kvartilů?
  • Jaký je vztah mezi mediánem a 2. kvartilem?
  • Existuje více způsobů výpočtu kvartilů, nelamte si tím hlavu

Kvintily

  • … na 5 stejných částí

Obrázek převzat z statisticshowto.com s odvoláním na World Health Organization.

Decily

  • … na 10 stejných částí

Percentily

  • … na 100 stejných částí. Kvantily jsou zpravidla na percentily převoditelné.

Zdroj Statistika a My

Logaritmické měřítko

Jak vizualizovat mnoho dat?

Původní měřítko

Zdroj (Spiegelhalter 2019)

Logaritmické měřítko

Logaritmus

Logaritmus: vyjadřuje, jakým číslem musíme umocnit daný základ, abychom dostali požadovaný výsledek.

\[log_28 = 3 \]

\[log_{10}100 = 2 \]

Ve statistice využívám zpravidla logaritmické měřítko při základu 10 pro zobrazování, tento logaritmus převádí čísla na jejich řády. Umožňuje společně vizualizovat velké a malé hodnoty (srazí je k sobě).

Příklad: savci a jejich mozky

species body_wt brain_wt
Africanelephant 6654.000 5712.0
Africangiantpouchedrat 1.000 6.6
ArcticFox 3.385 44.5
Arcticgroundsquirrel 0.920 5.7
Asianelephant 2547.000 4603.0
Baboon 10.550 179.5
Bigbrownbat 0.023 0.3
Braziliantapir 160.000 169.0
Cat 3.300 25.6
Chimpanzee 52.160 440.0


Inspirováno tutorialem Marvina Lemose

Distribuce hmotností těl a mozků

Vztah mezi hmotností těl a mozků

Vztah na logaritmickém měřítku

U logaritmického měřítka je častý vědecký zápis

Robustní statistiky

Co je robustní statistika?

  • Ukazetel, který není (příliš) ovlivněn extrémními hodnotami (odlehlými pozorováními).

Průměr vs. medián (odstraněna jediná hodnota)

Oříznutý průměr

  • Medián potlačuje šikmost distribuce i extrémní případy, oříznutý průměr potlačuje především extrémní případy.
  • Oříznutý průměr (trimmed mean, truncated mean): průměr z hodnot po “oříznutí” určitého procenta extrémních (nejmenší a největších hodnot).
  • NADSTAVBA: Windsorized mean - podobný jako oříznutý, místo odříznutí ale hodnoty nahradí nejvyšší/nejnižší ještě neodstraněnou hodnotou.

Jiné průměry

Jiné průměry

  • vážený průměr
  • klouzavý průměr
  • geometrický průměr (nadstavba)
  • harmonický průměr (nadstavba)

Vážený průměr

\[\bar{x} = \frac{\sum_{i=1}^n x_i*w_i}{\sum_{i=1}^n w_i} \]

kde \(w_i\) jsou váhy jednotlivých pozorování

Vážený průměr - příklad

Jak vypočítat podíl osob ve věku 80 a více v rámci EU?

Příklad Itálie, Česko a Slovensko

  • Podíl 80 a více ČR = 4,1 %

  • Podíl 80 a více IT = 7,4 %

  • Podíl 80 a více SK = 3,4 %

  • Počet obyvatel ČR = 10 700 000

  • Počet obyvatel IT = 59 600 000

  • Počet obyvatel SK = 5 500 000

  • Aritmetický průměr = \((4.1 + 7.4 + 3.4) / 3 = 4.97\)
  • Vážený průměr = \((4.1*10.7 + 7.4*59.6 + 3.4*5.5) / (10.7 + 59.6 + 5.5) = 6.64\)

Klouzavý průměr

Spiegelhalter and Masters (2021)

  • Tmavá plná čára = USA
  • Světlá plná čára = IT
  • Světlá prerušovaná čára = UK

Nadstavba

Geometrický průměr (nadstavba)

Pokud je růst HDP ve třech po sobě jdoucích letech 2 %, 20 % a 38 %, průměrný růst HDP je tedy 20 % (aritmetický průměr). Problém je, že pokud by byl třikrát po sobě narostlo HDP o 20 %, dospěli bychom k jinému výslednému HDP. Geometrický průměr je číslo, o které by každý rok muselo narůst HDP, abychom dospěli ke stejnému výsledku, jako když reálný růst byl 2, 20 a 38 %.

Jak se vyvíjelo HDP: \(100*1.02*1.20*1.38 = 168.9\)

Aritmetický průměr: \(100*1.2*1.2*1.2 = 172.8\)

Výpočet geometrického průměru (nadstavba)

\[\bar{x}_G = \sqrt[n]{x_1*x_2*x_3 ... x_n} \] kde \({x_1*x_2*x_3 ... x_n}\) vyjadřují tempo růstu ve formátu, kdy 2 % jsou vyjádřena jako 1,02

Tedy v našem případě: \(\sqrt[3]{1.02*1.20*1.38} = 1.191\)

A lze snadno ověřit, že: \(100*1.191*1.191*1.191 = 168.9\)

Harmonický průměr (nadstavba)

\[\bar{x}_H = \frac{n}{\frac{1}{n}*(\frac{1}{x_1}+\frac{1}{x_2}...\frac{1}{x_n})} \]

\[\bar{x}_H = \frac{n}{\sum_{i=1}^n \frac{1}{x_i}} \]

Linka A vyrobí produkt za 30 minut, linka B za 10 minut. Jak dlouho průměrně trvá vyrobit jeden výrobek? 20 minut je špatná odpověď, protože by vedla k predikci, že za hodinu vyrobím v průměru 3 výrobky na jedné lince, tedy 6 na obou dohromady. Ale ve skutečnosti vyrobím za hodinu 8 výrobků.

Výpočet pomocí harmonického průměru je: \(2/(1/30 + 1/10) = 15\)

Tedy průměrně na jedné lince výrobek za 15 minut, 4 za hodinu a celkem 8 výrobků za hodinu.

Logaritmické měřítko a exponenciální růst

  • Co je to exponenciální růst?
  • Exponenciální růst - něco se “x-násobí” za určitou časovou jednotku (zdvojnásobí, zdesetinásobí, ale i jen vynásobí 1.001)

Jak vypadá exponenciální růst?

Zlogaritmování pomáhá rozpoznat exponenciální růst

Reference v prezentaci

Následuje seznam referencí, které v prezentaci neměly aktivní proklik na zdroj.

Spiegelhalter, David. 2019. The Art of Statistics: Learning from Data. UK USA Canada Ireland Australia India New Zealand South Africa: Pelican.

Spiegelhalter, David, and Anthony Masters. 2021. Covid by Numbers: Making Sense of the Pandemic with Data. Pelican.