nulový model - nemáme žádnou dodatečnou informaci
2 základní stavební kameny:
Statistický model má dva komponenty: deterministický komponent a náhodný komponent.
To můžeme vyjádřit takto:
Data = model + zbytek
Nebo alternativně takto:
Pozorování = predikovaná hodnota + chyba
Formální zápis modelu s průměrem:
\[ y_i = \bar{y} + e_i \]
Formální zápis jednoduché lineární regrese:
\[ y_i = \beta_0 + \beta_1*x_i+e_i \]
Podmíněná očekávaná hodnota v případě jednoduché lineární regrese: Průměrná hodnota závislé proměnné pro danou hodnotu nezávislé proměnné za předpokladu, že mezi nimi existuje lineární vztah.
Deterministická část modelu udává podmíněnou očekávanou hodnotu.
## (Intercept) father ## 38.3625810 0.4465226
\[ \beta_1 = \rho * (\sigma_y/\sigma_x) \]
Tedy regresní koeficient získáme z korelačního tak, že jej vynásobíme podílem směrodatné odchylky závislé proměnné a směrodatné odchylky nezávislé proměnné. Z toho vyplývá, že pokud je směrodatná odchylka obou proměnných stejná, oba koeficienty mají stejnou hodnotu.
Samotná komputace (odhadování) statistického modelu může probíhat různými způsoby. V případě lineární regrese používáme zpravidla algoritmus, který minimalizuje sumu čtverců odchylek (OLS)
Suma čtverců v nulovém modelu:
\[ \sum{e_i^2} = \sum{(y_i-\bar{y})^2} \]
Total SS = Explained SS + Residual SS
TSS = ESS + RSS
SST = SSE + SSR
\[ TSS = \sum(y_i - \bar{y})^2 \]
\[ RSS = \sum(y_i - \hat{y_i})^2 \]
\[ ESS = \sum(\hat{y_i} - \bar{y})^2 \]
TSS = ESS + RSS