Na záložkách níže najdete úkoly k procvičování látky z jednotlivých lekcí. Ke každému zadání je pro kontrolu k dispozici řešení. Silně doporučuji: Pokuste se problém nejprve vždy vyřešit sami. Mnohem víc si odnesete, než když si jen líně přečtete řešení ;-)
Otázka 1
Najděte, jaký je rozdíl mezi porodností (resp. hrubou mírou porodnosti) a plodností (resp. úhrnnou plodností)? V čem se liší z hlediska vhodnosti použití?
Otázka 2
Za zjednodušeného předpokladu, že je v ČR 10 miliónů obyvatel a ročně se narodí 100 tisíc dětí, jaká je u nás hrubá míra porodnosti?
## [1] 10
Otázka 3
Dohledejte, jaká je aktuálně v Česku úhrnná plodnost. Dále zjistěte, jestli se zaposledních 20 let (zhruba mezi roky 2000 a 2020) zvýšila, snížila, nebo zůstala víceméně stejná.
Za posledních 20 let se naše úhrnná plodnost zvyšuje. Zatímco kolem roku 2000 patřila k nejnižším na světě, dnešní hodnoty kolem 1,7 z nás dělají v rámci rozvinutých zemích spíše nadprůměrnou zemi. Samozřejmě na obnovu populace to samo o sobě nestačí, na to jsou potřeby hodnoty kolem 2,1. Před úbytkem populace nás (zatím) chrání prodlužující se délka života a narůstající migrace.
Zdroj ČSÚ.
Otázka 4
Čína dnes vykazuje velmi nízkou míru plodnosti (daleko za Českou republikou). Navíc víme, že politika jednoho dítěte, která byla v minulosti realizována v Číně, vedla k tomu, že je dnes v kohortě mladých lidí v reprodukčním věku nebývalá převaha mužů. (Je to důsledkem toho, že rodiny nucené mít jen jedno dítě preferovaly chlapce do té míry, že to vedlo k selektivním potratům na základě pohlaví.) Jak bychom tuto doplňkou informaci vyhodnotili vzhledem k nízké míře plodnosti v zemi? Souhlasíte tvrzením, že nízká míra plodnosti v Číně může být do určité míry pouze zdánlivá a vyplývat z výše popsaných důsledků politiky jednoho dítěte? Proč ano/ne?
Je to přesně naopak. Skutečnost, že je v současné kohortě mladých tak málo žen, vlastně znamená, že nízká míra plodnosti ani plně neodráží závažnost demografické situace v Číne.
Otázka 1
Pro každou z následujících proměnných rozhodněte, zda jde o proměnnou nominální, ordinální, nebo kardinální. Pokud jde o proměnnou kardinální, rozhodněte také, jestli je intervalová, nebo poměrová a do třetice, jestli je spojitá, nebo diskrétní.
Otázka 2
Sebevražda je od dob Émila Durkheima považována za relevantní sociologické téma. Jedno pohlaví páchá sebevraždu výrazně (asi čtyřikrát až pětkrát) častěji než druhé (označujme ho po zbytek úlohy pohlaví A). Tipněte si (bez googlování), které to je. Jaké sociologické důvody by s tím mohly být spojeny? Poté odpovězte následující otázky (čísla přibližně platí pro ČR posledních let):
“Relativní riziko sebevraždy je u pohlaví A o XXa % větší než u pohlaví B. Pokud víme, že v každém roce spáchá sebevraždu asi 24 jedinců pohlaví A na 100 000 obyvatel, můžeme dopočítat, že ročně spáchá sebevraždu asi XXb jedinců pohlaví B na 100 000 obyvatel. Rozdíl v absolutním riziku spáchání sebevraždy je tedy mezi oběma pohlavímí XXc %. Šanci na spáchání sebevraždy u jedince pohlaví A, pokud nemáme žádné další informace, lze vyjádřit zlomkem XXd. [Nadstavba, nemusíte umět:] Poměr šancí spáchání sebevraždy mezi pohlavím A a pohlavím B pak lze vyjádřit číslem XXe.”
Pohlaví A jsou muži. To, že muži páchají sebevraždu výrazně více než ženy, je skutečností napříč společnostmi. Protože se tématem nezabývám, důvody neznám, takže váš brainstorming klidně mohl vygenerovat lepší nápady než můj. Já vycházím z toho, že za komunismu u nás muži páchali sebevraždu jen asi 2krát až 3krát častěji než ženy, zatímco dnes je to 4krát až 5krát častěji (počty sebevražd mezi ženymi poklesly od 70. a 80. let na méně než polovinu, zatímco počty sebevražd mezi muži klesly jen o přibližně 25 %). Proto si myslím, že to do nějaké míry může souviset s tím, že současné uspořádání s důrazem na soutěživost může negaitvněji dopadat na muže, kteří neuspějí, než na ženy. Další hypotéza je, že by to mohlo souviset se hustotou a kvalitou sociálních služeb - azylové domy a podobné instituce jsou často jen pro ženy, obdobné instituce pro muže jsou řidší. Ale jak říkám, je to jen brainstorming.
A teď už k číslům:
V textu s vysvětlením:
“Relativní riziko sebevraždy je u pohlaví A o 300 % větší než u pohlaví B (pozor, pokud je relativní riziko 4krát větší, znamená to, že je o 300 % větší, analogicky jako 1,5krát větší riziko představuje o 50 % větší riziko). Pokud víme, že v každém roce spáchá sebevraždu asi 24 jedinců pohlaví A na 100 000 obyvatel, můžeme dopočítat, že ročně spáchá sebevraždu asi 6 jedinců pohlaví B na 100 000 obyvatel. Rozdíl v absolutním riziku spáchání sebevraždy je tedy mezi oběma pohlavímí 0,018 % (tedy necelé 2 desetiny promile - zde se opět dotýkáme toho, že velký rozdíl v relativním riziku nemusí znamenat velký rozdíl v absolutním riziku, pokud je celkové riziko malé, výpočet je následující: Absolutní riziko u mužů v procentech = (24/100000) \(\times\) 100). Absolutní riziko u žen = (6/100000) \(\times\) 100). Z obou výsledků pak už jen spočítáme rozdíl = 0,024 - 0,006. Šanci na spáchání sebevraždy u jedince pohlaví A, pokud nemáme žádné další informace, lze vyjádřit zlomkem 24/99976. [Nadstavba, nemusíte umět:] Poměr šancí spáchání sebevraždy mezi pohlavím A a pohlavím B pak lze vyjádřit číslem 4 (výpočet: (24/99976)/(6/99994)).”
Otázka 1
Každý z následujících výroků dokončete/doplňte správnou z nabízených možností:
Správné odpovědi jsou: b, c, c, c
Zdůvodnění:
Otázka 2
Za použití libovolného softwaru nebo papíru vypočítejte průměrný věk naděje na dožití kombinované populace v následujících zemích podle zadaných čísel (vážený průměr). Která země do výsledku “promluví” největší vahou?
country | life_exp | population |
---|---|---|
Iceland | 82.4 | 348450 |
Norway | 82.5 | 5295619 |
Switzerland | 83.3 | 8484130 |
Montenegro | 76.8 | 622359 |
North Macedonia | 75.9 | 2075301 |
Albania | 76.4 | 2870324 |
Serbia | 76.3 | 7001444 |
Turkey | 76.4 | 80810525 |
Protože nám nejde o průměr z ukazelů jednotlivých zemí, ale o průměr ze všech jednotlivců v těchto zemích, musíme použít vážený průměr, abychom zohlednili různou velikost populace v jednotlivých zemích. Největší vahou do výsledku promluví největší země, tedy Turecko.
data$life_exp * data$population # nejprve roznásobíme jednotlivé naděje na dožití jejich vahou, tedy populací země, které se týkají
## [1] 28712280 436888568 706728029 47797171 157515346 219292754 534210177
## [8] 6173924110
sum((data$life_exp * data$population)) # Tato čísla sečteme
## [1] 8305068434
sum((data$life_exp * data$population)) / sum(data$population) # Výsledek vydělíme součtem všech populací.
## [1] 77.25059
Otázka 1
Každý z následujících výroků dokončete/doplňte správnou z nabízených možností:
Správné odpovědi jsou: b, c, b, a
Zdůvodnění:
Otázka 2
Za použití tužky a papíru vypočítejte mezikvartilové rozpětí, výběrový rozptyl, výběrovou směrodatnou odchylku pro následující datovou sadu: 10, 11, 20, 13, 22, 7, 8, 19
Níže používám funkce v R, výsledky slouží pouze pro kontrolu, nepředpokládá se využití funkcí, spíše je dobré procvičit si výpočet v ruce.
IQR(c(10, 11, 20, 13, 22, 7, 8, 19)) # mezikvartilové rozpětí
## [1] 9.75
quantile(c(10, 11, 20, 13, 22, 7, 8, 19), 0.25) # 1. kvartil
## 25%
## 9.5
quantile(c(10, 11, 20, 13, 22, 7, 8, 19), 0.75) # 3. kvartil
## 75%
## 19.25
var(c(10, 11, 20, 13, 22, 7, 8, 19)) # výběrový rozptyl
## [1] 33.64286
n <- length(c(10, 11, 20, 13, 22, 7, 8, 19))
var(c(10, 11, 20, 13, 22, 7, 8, 19)) * (n-1)/n # populační rozptyl, ten ale skoro nikdy nechcete
## [1] 29.4375
sd(c(10, 11, 20, 13, 22, 7, 8, 19)) # výběrová směrodatná odchylka
## [1] 5.800246
sqrt(var(c(10, 11, 20, 13, 22, 7, 8, 19))) # alernativní výpočet
## [1] 5.800246
Otázka 1
Stáhněte si dataset Countries a vypočítejte vždy Pearsonův a Spearmanův korelační koeficient pro následující dvojice proměnných. Dvojici proměnných si vizualizujte a na základě toho rozhodněte, který koeficient je vhodnější:
Správné odpovědi jsou:
Zdůvodnění:
Otázka 2
Níže je popsáno několik hypotetických či skutečných příkladů Simpsonova paradoxu. Pro každý příklad zkuste vymyslet mechanismus, který by ho mohl vysvětlovat.
V krátkosti: v dané věkové skupině nebyli lidé očkováni rovnoměrně. U starších kategorií bylo očkování mnohem častější, ale starší lidé mají také větší pravděpodobnost úmrtí.
Původní tvrzení: Vaccinated English adults under 60 are dying at twice the rate of unvaccinated people the same age. Zdroj ZDE
Professor Jeffrey Morris estimated that the annual mortality rate at the older end of the 10-59 age spectrum would be more than 50 times higher than the mortality rate at the younger end of the spectrum, with 478.2 per 100,000 deaths among 55-59 year olds and 8.8 per 100,000 among 10-14 year olds. Reuters Fact Check
Verdikt: Zavádějící. Je pravda, že ve věkové skupině 10-59 let je vyšší míru úmrtnosti u očkovaných jedinců. Není to však důsledkem toho, že by očkování způsobovalo úmrtí, ale důsledkem vyšší míry očkování u starších věkových skupin v tomto širokém věkovém rozpětí, přičemž starší mají také vyšší úmrtnost.Celý článek Reuters Fact Check
Příklad jsem označil jako hypotetický, protože nejsem schopen dohledat zdroj, ale mám pocit, že jsem něco podobného skutečně četl: Například je možné, že státy s vyšší gramotností jsou ekonomicky silnější, nabízí víc pracovních příležitostí, a tak lákají více migrantů. Byť ti sami jsou méně gramotní než rodilí Američané, nepřeváží to vysokou koncentraci gramotných Američanů v bohatých státech. Na agregované úrovni pak sledujeme přesně obrácený vztah než na úrovni individuální.
Otázka 1
Představte si kardinální (numerickou) proměnnou, např. příjem pro tisíc lidí. Máte tedy 1000 hodnot. Nyní náhodně vyberete 1 člověka z této tisícovky, nicméně nevíte, která hodnota příjmu k němu patří. Jaký by měl být Váš nejlepší odhad jeho příjmu, pokud kritériem kvality odhadu je, že při opakování tohoto experimentu byste chtěli minimalizovat sumu čtverců odchylek skutečných hodnot od Vašich odhadů?
Správná odpověď: aritemtický průměr
Zdůvodnění:
Z přednášky byste měli vědět, že na aritmetický průměr se můžeme dívat jako na nulový model, tedy je to taková hodnota, která minimalizuje sumu čtverců odchylek. Zároveň byste měli mít porozumění, proč odpovědi směrodatná odchylka a polovina mezikvartilového rozpětí jsou v tomto kontextu zcela nesmyslné.
Otázka 2
Které z následujících schémat je nejlepším vyjádřením toho, jak funguje statistický model?
Správná odpověď: Pozorování = predikovaná hodnota + chyba
Poznámka:
“Pozorování = konstanta + predikovaná hodnota” popisuje nulový model, tedy pokud pro odhad nepoužíváme žádné prediktory, ale pouze aritemtický průměr. Nelze tedy o obecné vyjádření toho, jak funguje statistický model.
Otázka 3
Na základě výstupu z modelu jednoduché lineární regrese určete podmíněnou očekávanou hodnotu pro jednotlivé výšky dcer. Výstup udává počátek (konstantu) a regresní koeficient nezávislé proměnné výška matky. V centimetrech.
##
## Call:
## lm(formula = childHeight ~ mother, data = Mother_Daughter)
##
## Coefficients:
## (Intercept) mother
## 110.9700 0.3182
Otázka 4
V rámci práce se statistickým modelem provádíme tzv. rozklad sumy čtverců reziduí (sum of squares, SS), pro který zavádíme zkratky TSS, ESS a RSS. Které z následujících vztahů platí?
Žádný. Všechny výše uvedené vztahy jsou špatně. Platí TSS = ESS + RSS, tedy že celková suma čtverců se rovná součtu modelem vysvětlené sumě čtverců a residuální sumy čtverců.
Otázka 1
Která z následujících tvrzení platí?
Správná odpověď: Platí pouze tvrzení “S lepší reprezentativitou výběrového souboru roste validita.” Velikost vzorku sama o sobě ovlivňuje pouze reliabilitu.
Otázka 2
Co říká zákon velkých čísel?
Správná odpověď: “Pokud opakujeme náhodný výběr z populace mnohokrát, průměrná pozorovaná hodnota se bude velmi blížit skutečné hodnotě v populaci.”
Poznámka:
První možnost je popisem centrální limitní věty. Třetí možnost vyplývá z regrese k průměru. Čtvrtá možnost nereprezentuje žádnou statistickou zákonitost a je věcně špatně - lidí na 10. percentilu bude stejně jako lidí na 20. percentilu a stejně jako lidí na 50. a 90. percentilu a jako na každém jiném percentilu: 1 %. Nenechte se zmást tím, že pokud uvažujeme výšku, která bude mít přibližně normální rozdělení, tak platí, že lidé na 40. a 50. percentilu budou mít méně odlišnou výšku než lidé na 80. a 90. percentilu. To je pravda.
Otázka 3
Které parametry jednoznačně definují normální rozdělení?
Správné odpovědi jsou dvě: 3 a 4. Typicky sice normální rozdělení definujeme průměrem a směrodatnou odchylkou, ale rozptyl je na směrodatnou odchylku jednoznačně přímo převoditelné, takže také kombinace parametrů průměr a rozptyl normální rozdělení jednoznačně definuje.
Otázka 4
Přibližně kolik procent všech pozorování nalezneme u normálního rozdělení mezi hodnotami -nekončeno a +2sd? Zvolte nejlepší z nabízených odpovědí.
Platí varianta 98 %. Nenechte se zmást tím, že mezi -2sd a +2sd se nachází cca 95 % všech pozorování. Nyní počítáme od -nekonečna, takže bychom se dostali k 97,5 %. Ovšem to platí pro hodnoty -1,96sd a +1,96sd. Pro 2 sd je přesnější 98 %. V otevřené otázce by 97,5 % byla dostatečně přesná odpověď. V uzavřené otázce by na základě toho neměl být problém mezi nabízenými variantami vybrat jako nejlepší možnost variantu 98 %, což je o něco přesnější odpověď.
Otázka 1
Označme si písmeny \(y\) a \(z\) dvě události, u kterých lze jednoznačně určit, zda nastaly, nebo ne. Která z následujících tvrzení o pravděpodobnosti těchto událostí zcela jistě NEplatí?
Zcela jistě neplatí první tři možnosti. Pravděpodobnost z definice nemůže být větší než 1, což zneplaťnuje první dva výroky. Pravděpodobnost také nemůže být záporná, což zneplatňuje třetí výrok.
Otázka 2
Hustota pravděpodobnosti (PDF) výsledku určitého experimentu, který může nabývat čtyř různých stavů (vzájemně se vylučujících), je vyjádřena obrázkem níže. Určete na základě PDF a základních pravidel počítání s pravděpodobností následující:
Otázka 3
Zodpovězte následující:
Otázka 1
Která z tvrzení o CLT platí?
Platí druhé dva výroky. První dva představují možné chybné interpretace. Ujistěte se, že rozumíte, proč jsou špatně. CLT nám neříká nic o distribuci proměnné. Její výpověď se vztahuje k distribuci agregující/sumarizační statistiky (typicky průměru nebo sumy) v hypotetickém případě, že bychom výběr z populace opakovali mnohohrát.
Otázka 2
Jaký výraz na obrázku představuje standardní chybu?:
Správná odpověď:
\(\frac{\sigma}{\sqrt n}\)
Otázka 3
Převeďte následující hodnoty na z-skóry: 90, 95, 98, 100, 100, 102, 145
Poznámka: pro výpočet rozptylu použijte vzorec pro výběrový rozptyl, tedy:
\[ rozptyl = \frac{\sum (x_i - \bar{x})^2}{n-1} \]
## [1] -0.777 -0.505 -0.342 -0.233 -0.233 -0.124 2.214
Z-skór je převedení hodnot na takové hodnoty, které mají průměr 0 a směrodatnou odchylku 1. Výpočet jsme si ukazovali: od hodnot odečteme jejich průměr a vydělíme směrodatnou odchylkou. V Excelu je potřeba použít funkci “SMODCH.VÝBĚR.S” pro výběrovou směrodatnou odchylku.
Otázka 4
Jaká je pravděpodobnost, že dané pozorování bude mít z-skór menší nebo roven hodnotě -1?
To nelze jednoznačně určit. Tahle otázka byla trochu chyták, ale ne samoúčelný. Abyste mohli na otázku odpovědět, museli byste vědět, z jakého rozdělení pozorování pochází. Z-skóry typicky používáme v kontextu normálního rozdělení, nicméně spočítat je můžeme pro jakékliv rozdělení (pokud známe průměr a směrodatnou ochylku). (Pro zájemce: existuje tzv. Chebyshevův teorém, který určuje alespoň hranice podílu pozorování, která jsou oddělena určitým počtem směrodatných ochylek, i pro distribuce, které nejsou normální. Z hlediska kurzu je to ale nadstavba k případnému samostudiu.)
Otázka 5
Pokud víme, že náhodné pozorování pochází z normálního rozdělení, (A) jaká je pravděpodobnost, že bude mít z-skór menší než -1? (B) A jaké je pravděpodobnost, že bude mít z-skór větší než +1,5? (C) A větší nebo roven 1,5?
15,9 %, v Excelu: “=NORM.S.DIST(-1;PRAVDA)”
6,7 %, v Excelu: “=1-NORM.S.DIST(1,5;PRAVDA)”, případně “=NORM.S.DIST(-1,5;PRAVDA)” … na těchto dvou variantách si hezky můžete uvědomit jak se chová symetrie normálního rozdělení.
Stejné jako (B). Pohybujeme se ve spojitém rozdělení, takže na tom nezáleží: pravděpodobnost každé přesné hodnoty je 0, takže dodatek “nebo rovno” nic nemění. Amazing, co?
Otázka 6
Která z následujících interpretací konfidenčního intervalu (ve frekventistickém paradigmatu) je správná?
95% konfidenční interval znamená, že…
Jen ta poslední. Ty ostatní jsou všechny problematické:
Otázka 1
Jaká je pravděpodobnost, že dané pozorování bude mít z-skór menší nebo roven hodnotě -1?
To nelze určit. Tahle otázka byla trochu chyták, ale ne samoúčelný. Abyste mohli na otázku odpovědět, museli byste vědět, z jakého rozdělení pozorování pochází. V kurzu Statistika 1 se zabýváme jen z-skóry v normálním rozdělení. Jako sociolog jsem se za svoji kariéru asi nesetkal s využíváním z-skórů v jiném kontextu než právě v normálním rozdělení.
Otázka 2
(A) Pokud víme, že pozorování pochází z normálního rozdělení, jaká je pravděpodobnost, že bude mít z-skór menší nebo roven hodnotě -1? (B) A jaké je pravděpodobnost, že pozorování z této distribuce bude mít z-skór větší než +1,5? (C) A větší nebo roven 1,5?
15,9 %, v Excelu: “=NORM.S.DIST(-1;PRAVDA)”
6,7 %, v Excelu: “=1-NORM.S.DIST(1,5;PRAVDA)”, případně “=NORM.S.DIST(-1,5;PRAVDA)” … na těchto dvou variantách si hezky můžete uvědomit jako se chová symetrie normálního rozdělení.
Stejné jako (B). Pohybujeme se ve spojitém rozdělení, takže na tom nezáleží: pravděpodobnost každé přesné hodnoty je 0, takže dodatek “nebo rovno” nic nemění. Amazing, co?
Otázka 3
Ve všech následujících případech platí, že údaje pochází z dostatečně velkého výběrového souboru, takže se můžete spolehnout na centrální limitní teorém. Spočítejte 87% interval spolehlivosti pro odhad průměru, pokud víte, že:
Nejprve musíte najít z-skór. Je potřeba si uvědomit, že inteval spolehlivosti má překrýt 87 % prostřeních hodnot, nicméně z-skór v tabulkách nebo softwaru vyhledávat pro pravděpodobnost od -nekonečna až do určitého bodu. Takže potřebujete najít z-skór pro pravděpodobnost 93,5 % (v Excelu pomocí funkce norm.s.inv). Pak už je to jednoduché. Je potřeba si jen dopočítat standardní chybu. V prvním případě ji už máte, takže počet pozorování nevyužijete. Ve druhém a třetím případě musíte z rozptylu, resp. směrodatné odchylky dopočítat pomocí počtu pozorování směrodatnou chybu.
Nečekám, že to bude hrát rozdíl ve vašem zájmu si provičovací úkoly projít, nicméně podmíněná pravděpodobnost nebude součástí závěrečné zkoušky.
Otázka 1
Máte v plánu piknik, ale probudíte se do zamračeného rána. Jaká je pravděpodobnost, že bude pršet, když také víte…
Co víme:
Takže Pr(déšť|zamračeno) = … dosadit do Bayesovy věty…
\[ \frac{0.1*0.5}{0.4} = 0.125 \]
Pravděpodobnost deště je 12,5 %. Ještě bych se s piknikem neloučil.