nominální
ordinální
kardinální (metrické, numerické, kvantitativní)
- intervalové
- poměrové
- numerické diskrétní
- numerické spojité
nominální
ordinální
kardinální (metrické, numerické, kvantitativní)
Tvar dat
Zdroj: Spiegelhalter (2019)
Zdroj (Spiegelhalter 2019)
Míry centrality se také nazývají míry polohy (measures of the location of the data distribution).
\[\bar{x} = (x_1 + x_2 + … +x_n)/n\]
kde \(x_1, x_2, …, x_n\) jsou jednotlivá pozorování a \(n\) je počet těchto pozorování.
Zkrácený zápis:
\[\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i \]
Průměr reprezentuje data v určitém smyslu, ale nemusí být reprezentativní v jiném smyslu.
Obrázek z brilliant.org
Převzato z Spiegelhalter and Masters (2021)
Studie Evropské centrální banky v roce 2013: německá mediánová domácnost je výrazně chudší než domácnosti středomořských zemí.
Zdroj dat je článek na voxeu.org
Obrázek převzat z statisticshowto.com s odvoláním na World Health Organization.
Zdroj (Spiegelhalter 2019)
Logaritmus: vyjadřuje, jakým číslem musíme umocnit daný základ, abychom dostali požadovaný výsledek.
\[log_28 = 3 \]
\[log_{10}100 = 2 \]
Ve statistice využívám zpravidla logaritmické měřítko při základu 10 pro zobrazování, tento logaritmus převádí čísla na jejich řády. Umožňuje společně vizualizovat velké a malé hodnoty (srazí je k sobě).
species | body_wt | brain_wt |
---|---|---|
Africanelephant | 6654.000 | 5712.0 |
Africangiantpouchedrat | 1.000 | 6.6 |
ArcticFox | 3.385 | 44.5 |
Arcticgroundsquirrel | 0.920 | 5.7 |
Asianelephant | 2547.000 | 4603.0 |
Baboon | 10.550 | 179.5 |
Bigbrownbat | 0.023 | 0.3 |
Braziliantapir | 160.000 | 169.0 |
Cat | 3.300 | 25.6 |
Chimpanzee | 52.160 | 440.0 |
Inspirováno tutorialem Marvina Lemose
\[\bar{x} = \frac{\sum_{i=1}^n x_i*w_i}{\sum_{i=1}^n w_i} \]
kde \(w_i\) jsou váhy jednotlivých pozorování
Jak vypočítat podíl osob ve věku 80 a více v rámci EU?
Podíl 80 a více ČR = 4,1 %
Podíl 80 a více IT = 7,4 %
Podíl 80 a více SK = 3,4 %
Počet obyvatel ČR = 10 700 000
Počet obyvatel IT = 59 600 000
Počet obyvatel SK = 5 500 000
Spiegelhalter and Masters (2021)
Pokud je růst HDP ve třech po sobě jdoucích letech 2 %, 20 % a 38 %, průměrný růst HDP je tedy 20 % (aritmetický průměr). Problém je, že pokud by byl třikrát po sobě narostlo HDP o 20 %, dospěli bychom k jinému výslednému HDP. Geometrický průměr je číslo, o které by každý rok muselo narůst HDP, abychom dospěli ke stejnému výsledku, jako když reálný růst byl 2, 20 a 38 %.
Jak se vyvíjelo HDP: \(100*1.02*1.20*1.38 = 168.9\)
Aritmetický průměr: \(100*1.2*1.2*1.2 = 172.8\)
\[\bar{x}_G = \sqrt[n]{x_1*x_2*x_3 ... x_n} \] kde \({x_1*x_2*x_3 ... x_n}\) vyjadřují tempo růstu ve formátu, kdy 2 % jsou vyjádřena jako 1,02
Tedy v našem případě: \(\sqrt[3]{1.02*1.20*1.38} = 1.191\)
A lze snadno ověřit, že: \(100*1.191*1.191*1.191 = 168.9\)
\[\bar{x}_H = \frac{n}{\frac{1}{n}*(\frac{1}{x_1}+\frac{1}{x_2}...\frac{1}{x_n})} \]
\[\bar{x}_H = \frac{n}{\sum_{i=1}^n \frac{1}{x_i}} \]
Linka A vyrobí produkt za 30 minut, linka B za 10 minut. Jak dlouho průměrně trvá vyrobit jeden výrobek? 20 minut je špatná odpověď, protože by vedla k predikci, že za hodinu vyrobím v průměru 3 výrobky na jedné lince, tedy 6 na obou dohromady. Ale ve skutečnosti vyrobím za hodinu 8 výrobků.
Výpočet pomocí harmonického průměru je: \(2/(1/30 + 1/10) = 15\)
Tedy průměrně na jedné lince výrobek za 15 minut, 4 za hodinu a celkem 8 výrobků za hodinu.
Následuje seznam referencí, které v prezentaci neměly aktivní proklik na zdroj.
Spiegelhalter, David. 2019. The Art of Statistics: Learning from Data. UK USA Canada Ireland Australia India New Zealand South Africa: Pelican.
Spiegelhalter, David, and Anthony Masters. 2021. Covid by Numbers: Making Sense of the Pandemic with Data. Pelican.