Modely ve vědě

Sociologie a modely

  • Sociální realita je složitá -> Potřeba zjednodušit
  • Modely fungují ve vědě na více úrovních (teoretický model, statistický model)
  • Model, pokus o definici: Reprezentace určitého aspektu světa založená na zjednodušujících předpokladech.

Smysl modelu - užitečnost

  • “All models are wrong, but some are useful.”

Příklady empirických modelů

  • Wisdom of Crowds
  • Tipping point
  • Agent-based models …
  • Statistické modely (např. lineární regrese)

Statistický model

Průměr jako nulový model

  • nulový model - nemáme žádnou dodatečnou informaci

  • 2 základní stavební kameny:

    • predikce modelu (v tomto případě aritmetický průměr)
    • odchylka od predikce (od modelu)

Kategoriální prediktor

Kardinální prediktor

Statistický model obecně

Statistický model má dva komponenty: deterministický komponent a náhodný komponent.

To můžeme vyjádřit takto:

Data = model + zbytek

Nebo alternativně takto:

Pozorování = predikovaná hodnota + chyba

Průměr a regrese jako statistické modely

Formální zápis modelu s průměrem:

\[ y_i = \bar{y} + e_i \]

Formální zápis jednoduché lineární regrese:

\[ y_i = \beta_0 + \beta_1*x_i+e_i \]

  • \(\beta_1\) (regresní koeficient) vyjadřuje sklon přímky,
  • regresní koeficient v jednoduché lineární regresi: o kolik se podle našeho modelu zvedne podmíněná očekávaná hodnota závislé proměnné, když hodnota nezávislé proměnné vzroste o jednotku

Očekávaná hodnota a podmíněná očekávaná hodnota

  • Očekávaná hodnota (expectation) - průměr z velkého počtu nezávislých pozorování
  • Podmíněná očekávaná hodnota - očekávaná hodnota závislé proměnné za předpokladu naplnění určitých podmínek

Podmíněná očekávaná hodnota v případě jednoduché lineární regrese: Průměrná hodnota závislé proměnné pro danou hodnotu nezávislé proměnné za předpokladu, že mezi nimi existuje lineární vztah.

Deterministická část modelu udává podmíněnou očekávanou hodnotu.

Výstup lineární regrese v R a problém extrapolace

## (Intercept)      father 
##  38.3625810   0.4465226

Rozdíl mezi regresním a korelačním koeficientem

Nadtavba: matematický vztah mezi regresním a korelačním koeficientem

\[ \beta_1 = \rho * (\sigma_y/\sigma_x) \]

Tedy regresní koeficient získáme z korelačního tak, že jej vynásobíme podílem směrodatné odchylky závislé proměnné a směrodatné odchylky nezávislé proměnné. Z toho vyplývá, že pokud je směrodatná odchylka obou proměnných stejná, oba koeficienty mají stejnou hodnotu.

Statistický model a suma čtverců reziduí

Minimalizace sumy reziduí

  • Samotná komputace (odhadování) statistického modelu může probíhat různými způsoby. V případě lineární regrese používáme zpravidla algoritmus, který minimalizuje sumu čtverců odchylek (OLS)

  • Suma čtverců v nulovém modelu:

\[ \sum{e_i^2} = \sum{(y_i-\bar{y})^2} \]

  • Jaký je vztah mezi sumou čtverců reziduí a rozptylem?

Rozklad sumy čtverců vizuálně

Rozklad sumy čtverců koncepčně

Total SS = Explained SS + Residual SS

TSS = ESS + RSS

SST = SSE + SSR

Rozklad sumy čtverců ve vzorcích

\[ TSS = \sum(y_i - \bar{y})^2 \]

\[ RSS = \sum(y_i - \hat{y_i})^2 \]

\[ ESS = \sum(\hat{y_i} - \bar{y})^2 \]

TSS = ESS + RSS

Regrese k průměru

Regrese k průměru

Regrese k průměru je všude kolem nás

  • Snižují rychlostní kamery počet nehod?
  • Vede pochavala ke zhoršení?
  • Proč mají nejúspěšnější země v testech PISA tendenci se v dalším kole zhoršovat?

Výhled za hranice tohoto kurzu

Vícenásobná linerární regrese

  • Větší mnžství prediktorů

Logistická regrese

  • Kategoriální závislá proměnná

Mechanistické modely

  • Modeluje se nikoliv struktura vztahů (vyjádřená například přímkou v jednoduché lineární regresi), ale předpokládané chování

Strojové učení (black-box algoritmy)

  • Samotný odhad modelu zpravidla není zřejmý, používá se k predikci

Reference