Zde najdete přehled jednotlivých témat. Jedno téma odpovídá jedné přednášce + semináři. U každého tématu najdete cíle výuky a výsledky učení. Cíle výuky jsou vymezením toho, co bych rád, abyste se v kurzu naučili. Výsledky učení jsou pak vodítkem pro mě i pro vás, jak si ověřit, že se to povedlo. Doporučuji pracovat s výsledky učení z následujících důvodů:

  • Pomáhají vám ověřit, že jste si odnesli to hlavní z každé přednášky + semináře
  • Z výsledků učení přímo vychází sekce Procvičování, kde si můžete ověřit své znalosti a dovednosti
  • Z výsledků učení přímo vychází úlohy v závěrečném testu, na jehož základě je vám udělana výsledná známka

Kromě toho najdete u každého tématu (s výjimkou úvodní hodiny) Základní a případně i Rozšiřující přípravu na každou přednášku. Základní příprava (před přednáškou) je povinná v tom smyslu, že ve výkladu se počítá s tím, že ji studující před přednáškou absolvoval. Koncepty, které jsou obsaženy v Základní přípravě, už na přednášce nebudou detailně vysvětlovány. Naopak budu počítat s tím, že už jste si je osvojili a budu na ně navazovat. Základní příprava (před přednáškou) je přibližně na 20 až 60 minut na každou přednášku, prosím, opravdu si na ni čas vyhraďte. Otázky v závěrečném testu také předpokládají, že jste základní přípravu absolovovali. Rozšiřující příprava je nabídkou, jak se k tématu dozvědět předem něco víc a usnadnit si tak orientaci v přednášené látce. S výkladem se buď do určité míry překrývá, nebo přináší doplňkovou perspektivu.

1 Úvod a motivace

  • Cíle výuky: Cílem přednášky + semináře je představit studujícím statistiku jako investigativní proces, který má vést k zodpovězení relevantních otázek společenských věd. Za tímto účelem je představen rámec PPDACC, tedy “problem” – “plan” – “data” – “analysis” – “conclusion” – “communication” (MacKay and Oldford 2000; Spiegelhalter 2019), který se bude opětovně vynořovat v průběhu kurzu. Zvláštní důraz je kladen na význam definice pojmu ve statistickém vyšetřování.

  • Výsledky učení - studující dokáže:

    • Definovat a ve správných souvislostech použít pojmy: (kvantitativní) empirický výzkum, statistika, proměnná, operacionalizace
    • Nakreslit, popsat a okomentovat PPDACC cyklus jako příklad modelu statického vyšetřování
    • Porovnat deskripci a explanaci jako cíle vědeckého snažení
    • Porovnat deskriptivní a inferenční statistiku z hlediska jejich cílů
    • Porovnat roli vědeckých faktů a vědecké teorie v rámci empirického výzkumu
    • Uvést příklad toho, kdy nesprávné porozumění definici pojmu může vést k chybné interpretaci statistické analýzy

2 Kategorická data a procenta

  • Cíle výuky: Cílem je seznámit studující s různými typy proměnných. Pozornost v této přednášce je věnována kategorickým proměnným a různým způsobům jejich prezentace včetně prezentace vizuální. Speciální pozornost je věnována binárním / dichotomickým datům a problematice absolutního a relativního rizika, resp. absolutního a relativního srovnání proporcí. Doplňková pozornost je věnována vybranými principům vizualizace dat.

  • Výsledky učení - studující dokáže:

    • Definovat a ve správných souvislostech použít pojmy: proměnné diskrétní, spojité, kategoriální, nominální, ordinální, kardinální, intervalové, poměrové, binární, dichotomické, absolutní riziko (resp. aboslutní rozdíl), relativní riziko (resp. relativní rozdíl), očekávaná četnost, pravděpodobnost, šance.
    • Vysvětlit, proč je nevhodné použití vícero koláčových grafů pro srovnání dvou a více skupin.
    • Převést informace o absolutním a relativním riziku na očekávané četnosti.
    • Při porovnávání proporcí se vyjadřovat jednoznačně, aby nemohlo dojít k nedorozumění.

3 Numerické proměnné a míry centrality

  • Cíle výuky: Cílem je představit studujícím koncept empirické distribuce dat (empirického rozdělení dat) a možnosti jejího grafického a numerické popisu s důrazem na míry centrality. V rámci přednášky je také představena problematika možnosti využití logaritmického měřítka pro práci s (velmi) šikmými daty.

  • Výsledky učení - studující dokáže:

    • Definovat a ve správných souvislostech použít pojmy: empirická distribuce dat, boxplot (krabicový graf), histogram, aritmetický průměr, medián, modus, kvartil, kvintil, decil, percentil, kvantil, šikmost.
    • Porovnat vlastnosti aritmetického průměru a mediánu.
    • Vysvětlit, co jsou robustní statistiky a uvést příklad robustní míry centrality.
    • Uvést příklady míry centrality, která robustní není, a vymyslet ilustrativní příklad dat, na kterém to lze demonstrovat.
    • Vysvětlit, jaké nedostatky může mít použití konkrétní statistiky na konkrétních příkladech (například použití aritmetického průměru pro příjem, mediánu pro majetek, módu pro počet komentářů u příspěvku na sociálních médiích atp.).
    • Nakreslit a na obrázku vysvětlit, proč může být pro správné pochopení distribuce dat potřeba data vizualizovat (nejen pouze popsat vybranou mírou centrality).
  • Základní příprava (před přednáškou)

  • Doporučená příprava

4 Numerické proměnné a míry variability

  • Cíle výuky: Přednáška rozšiřuje výklad o konceptu empirické distribuce dat, tentokrát s důrazem na míry variability. V rámci přednášky je poprvé krátce představena také problematika z-skórů.

  • Výsledky učení - studující dokáže:

    • Definovat a ve správných souvislostech (včetně řešení numerických úkolů) použít pojmy: variační rozpětí, mezikvartilové rozpětí, rozptyl, směrodatná odchylka, variační koeficient, z-skór.
    • Vysvětlit, v jaké vzájemném vztahu jsou směrodatná odchylka a rozptyl.
    • Vysvětlit, co jsou robustní statistiky a uvést příklady robustní míry variability.
    • Uvést příklad míry variability, která robustní není, a vymyslet ilustrativní příklad dat, na kterém to lze demonstrovat.
  • Základní příprava (před přednáškou)

  • Doporučená příprava

5 Popis vztahů mezi proměnnými

  • Cíle výuky: Cílem je systematizovat pro studující problematiku popisu vztahů mezi různými typy proměnných. Toto téma je částečně pokryto už v předchozích přednáškách, které se vždy alespoň zčásti opírají o reálné příklady, takže přítomnost více proměnných a zkoumání vztahů mezi nimi jsou studentům představeny jaksi mimochodem. Nyní jde o systematizaci a doplnění tohoto poznání. Předmětem přednášky je pouze deskripce vztahů, nikoliv statistické testování. Důraz je kladen na vizualizaci dat.

  • Výsledky učení - studující dokáže:

    • Definovat a ve správných souvislostech použít pojmy kovariance, korelace, Pearsonův korelační koeficient, Spearmanův korelační koeficient, kontingenční tabulka, řádková procenta, sloupcová procenta, Simpsonův paradox.
    • Pohledem a úvahou odhadnout, jak se bude měnit korelační koeficient u daného malého datového souboru a jak se bude lišit Pearsonův a Spearmanův koeficient pro tato data.
    • Vysvětlit a na příkladech ilustrovat, co znamená, že korelace neimplikuje kauzalitu.
    • Vysvětlit a na příkladech ilustrovat, co znamená, že kauzalita neimplikuje korelaci.
    • Vysvětlit, co je to Simpsonův paradox a ilustrovat to příkladem.
  • Základní příprava (před přednáškou)

  • Doporučená příprava

    • TBD

6 Statistický model

  • Cíle výuky: Cílem je seznámit studující na základní úrovni s myšlenkou statistického modelu, jako matematické reprezentace vyjadřující pravděpodobnostní rozdělení náhodných proměnných a skládající se z deterministické a náhodné komponenty. Tato myšlenka je představena na konceptu již známém (aritmetický průměr) i novém (jednoduchá lineární regrese).

  • Výsledky učení - studující dokáže:

    • Definovat a ve správných souvislostech použít pojmy závislá proměnná, nezávislá proměnná, očekávaná hodnota, podmíněná očekávaná hodnota, jednoduchá lineární regrese, celková suma čtverců reziduí, reziduální suma čtverců reziduí, vysvětlená suma čtverců reziduí.
    • Interpretovat výstup jednoduché lineární regrese v grafické i tabulkové podobě.
    • Vysvětlit, co znamená regrese k průměru a jakou roli v tomto konceptu hraje rozdělení variability na deterministickou a náhodnou složku
  • Základní příprava (před přednáškou)

    • TBD
  • Doporučená příprava

    • Pokud si chcete poslechnout někoho jiného, jak popisuje základní pojmy lineárního statistického modelu, můžete se podívat na toto video.
    • V tomto videu o celkové sumě čtverců si můžete s autorem názorně projít výpočtem celkové sumy čtverců reziduí na příkladu kategorického prediktoru (3 kategorie) a kardinální závislé proměnné. V tomto navazujícím videu o rozkladu celkové sumy čtverců se můžete podívat na názorný rozklad celkové sumy čtverců, ale pozor, je zde používána trochu jiná terminologie. Pro reziduální sumu čtverců reziduí (RSS) používá autor “sum of squares within” a pro vysvětlenou sumu čtverců (ESS) používá autor “sum of squares between.” Tento rozdíl v terminiologii je dán pouze odlišným rámcem výkladu: zatímco my používáme rámec lineárního modelu, autor videí používá rámec s názvem ANOVA. Rámec lineárního modelu v kurzu preferujeme, protože je obecnější (ANOVA je pouze jeden jeho speciální případ).

7 Základy inferenčního uvažování: vzorek a populace

  • Cíle výuky: Cílem přednášky je seznámit studující s různými významy konceptu populace a uvést je do problematiky inferenční statistiky, tedy usuzování z výběrového souboru na populaci. Studující se seznámí s uniformním a normálním rozdělením, a standardizací proměnných na z-skóry. Vedle konceptu populace jsou předmětem přednášky bodové a intervalové odhady a základní seznámení se simulační technikou bootstrapping.

  • Výsledky učení - studující dokáže:

    • Definovat a ve správných souvislostech použít pojmy deskripce, explanace, deskriptivní statistika, inferenční statistika, induktivní statistika, vzorek, výběrový soubor, populace, reprezentativita dat, validita, interní validita, externí validita, populace jako skupina subjektů, virtuální populace, metaforická populace, „sampling distribution", bootstrapping.
    • Vysvětlit myšlenku bootstrappingu a jak na jeho základě odhadujeme variabilitu odhadu.
    • Srovnat doslovný význam pojmu populace a s pojmem virtuální populace a metaforická populace a vysvětlit, v čem je zavedení těchto pojmů užitečné.
  • Základní příprava (před přednáškou)

  • Doporučená příprava

    • TBD

8 Pravděpodobnost, nejistota a variabilita

  • Cíle výuky: Cílem je šetrné uvedení do teorie pravděpodobnosti coby jazyka nejistoty a variability. Diskutována je klasická (naivní, četnostní) definice pravděpodobnosti a základní zákony/pravidla pravděpodobnosti. Intuitivní pochopení pravděpodobnosti je podpořeno pomocí konceptu očekávaných četností. Vrátíme se také k pojmu distribuce představenému dříve a dáme ho do kontextu s teorií pravděpodobnosti. Při této příležitosti jsou představeny pojmy hustota (v souvislosti s pravděpodobností, tedy přesněji Probability Density Function) a kumulativní pravděpodobnost (Cumulative Distribution Function). Pozornost je věnována také myšlence randomizace a různým filosofickým uchopením významu pravděpodobnosti.

  • Výsledky učení - studující dokáže:

    • Vysvětlit omezení klasické (naivní) definice pravděpodobnosti.
    • Vysvětlit rozdíly mezi frekventistickou a bayesiánskou interpretací pravděpodobnosti a diskutovat výhody a nevýhody obou přístupů.
    • Interpretovat graf (kumulativní) distribuční funkce pro diskrétní i spojité proměnné.
  • Základní příprava (před přednáškou)

  • Doporučená příprava

    • TBD

9 Centrální limitní věta (dvě přednášky)

  • Cíle výuky: Cílem je propojení teorie pravděpodobnosti a statistiky skrze centrální limitní větu. Představen je také zákon velkých čísel a výpočet intervalů spolehlivosti jako rozšíření problematiky intervalových odhadů představených dříve.

  • Výsledky učení - studující dokáže:

    • Vysvětlit na základě zákona zákona velkých čísel a centrální limitní věty, proč je možné zobecnit výsledky výběrových šetření na širší populaci.
    • Interpretovat intervalové odhady z pohledu frekventistické a bayesiánské pravděpodobnosti a vysvětlit výhody a nevýhody obou přístupů.
  • Základní příprava (před přednáškou)

    • TBD
  • Doporučená příprava

10 Podmíněná pravděpodobnost a Bayesova věta

  • Cíle výuky: Cílem je seznámit studující s podmíněnou pravděpodobností a jejími aplikacemi včetně formalizace pomocí Bayesovy věty.

  • Výsledky učení - studující dokáže:

    • Definovat a ve správných souvislostech použít pojmy specificita, sensitivita a přesnoste testu.
    • Vysvětlit na zadaném příkladu, co jsou falešně pozitivní a co falešně negativní případy a případně je na základě zadání vyčíslit.
    • Využít podmíněnou pravděpodobnost pro zpřesnění pravděpodobnostních odhadů.
    • Využít Bayesovu větu pro inverzi podmíněné pravděpodobnosti.
  • Základní příprava (před přednáškou)

    • TBD
  • Doporučená příprava

    • TBD

Reference

Toto není seznam kurzové literatury, ale pouze literatura explicitně odkazovaná v této části webu. Pro doporučenou kurzovou literaturu viz záložka Literatura.

MacKay, R. J., and R. W. Oldford. 2000. “Scientific Method, Statistical Method and the Speed of Light.” Statistical Science 15 (3): 254–78. https://doi.org/10.1214/ss/1009212817.
Spiegelhalter, David. 2019. The Art of Statistics: Learning from Data. UK USA Canada Ireland Australia India New Zealand South Africa: Pelican.