Vybraná témata analýzy dat

Tato stránka je věnována workshopům pro statistiku a analýzu dat v kontextu sociálních věd, pořádaných na katedře sociologii Filozofické fakulty Univerzity Karlovy. Cílem setkání je poskytnout účastníkům příležitost seznámit se s pokročilými, novými a méně běžnými nástroji pro analýzu dat. Workhopy vás provedou hosté z řad akademického, veřejného i soukromého sektoru.

Studenti univerzity si mohou workshopy zapsat jako volitelný předmět “Vybrané kapitoly analýzy dat v R” (SIS kód: ASGV00993). Studenti doktorského studia katedry sociologie FF UK si mohou účast na workshopech uznat jako teoreticko-metodologické semináře. Detaily jsou k nalezení v záložce Atestace. Ostatní zájemci se mohou registrovat na konkrétní workshopy pomocí přiložených formulářů. V případě otázek se můžete obrátit na ales@vomacka.io.

Pokud není uvedeno jinak, workshopy se konají ve čtvrtek od 15:50 do 17:25 v Celetné 13, místnost 1.09.

Přehled workshopů pro akademický rok 2024/2025

Matouš Pilnáček - Vážení dotazníkových dat (3. 10.)

Matouš Pilnáček - Vážení dat (Sociologický ústav AVČR)
Termín: 3. 10.
Registrace: link

V dotazníkových šetřeních se často upravují data pomocí vážení tak, aby výsledky lépe odrážely skutečné složení zkoumané populace. Každému respondentovi je přiřazena váha, která určuje jeho relativní význam v celkovém souboru dat. Tato úprava dat je z řady důvodů velmi lákavá, ale má zároveň i své nevýhody. V rámci workshopu se nejprve zaměříme na teoretické aspekty vážení dat: Je potřeba vždy vážit? Jaké typy vah existují? Jaké jsou skrytá úskalí vážení? Poté se přesuneme k praktické části, ve které si ukážeme, jak vytvořit váhy pomocí balíčku survey v prostředí R, a jak je efektivně použít při analýzách. Diskutovat také budeme alternativní metody vážení jako je např. kvadratické programování.
Jiří Lukavský - Organizace kódu a dat (17. 10.)

Jiří Lukavský - Organizace kódu a dat (FF UK/ Psychologický ústav AVČR)
Termín: 17. 10.
Registrace: link

V rámci analýzy potřebujeme často udržovat pořádek, např. pracujeme se vstupními daty, výsledky a mezivýsledky. Chceme efektivně stavět na předchozích výpočtech, ale také aby jednotlivé fáze naší práce byly replikovatelné. Budeme se věnovat organizaci kódu pomocí balíčku targets a také propojením s dalšími možnostmi výstupů (vertical).
Petr Bouchal - Kde vzít otevřená data a jak s nimi pracovat efektivně (31. 10.)

Petr Bouchal - Kde vzít otevřená data a jak s nimi pracovat efektivně (VAÚ ÚV)
Termín: 31. 10.
Registrace: link

Jak se v Rku dostat ke statistickým a administrativním datům statu? Ukážeme si na příkladu otevřených dat ČSÚ a státní pokladny a k dalším datům vás nasměruju. A protože taková data někdy mají dost řádků, ukážeme si, jak v Rku pracovat s většími množství dat pracovat tak, aby počítání bylo svižné a efektivní (hesla: arrow, duckDB).
Martin Modrák - Bayesovské statistické workflow s balíčkem rstanarm (14. 11.)

Martin Modrák - Bayesovské statistické workflow s balíčkem rstanarm (2. LF UK)
Termín: 14. 11.
Registrace: link

Bayesovský přístup ke statistice není jen filozofická záležitost, ale (zejména) sada praktických nástrojů, které usnadňují návrh, výběr i ladění statistických modelů a mohou nám tak dát větší důvěru, že náš model je vhodný pro data, která se snažíme analyzovat. Vyzkoušíme si základní kroky tohoto workflow s využitím balíčku rstanarm pro regresní modely - principy jsou ale přímo aplikovatelné i na komplexnější modely.
Patrícia Martinková - Psychometrie v R (28. 11.)

Patrícia Martinková - Psychometrie v R (PedF UK / Ůstav Informatiky AVČR)
Termín: 28. 11.
Registrace: link

V prezentaci probereme výpočetní aspekty psychometrických metod pro odhadování reliability, validity a fungování položek vícepoložkových měření, jakož i implementace v R a ShinyItemAnalysis. Nahlédneme do knihy k tomuto tématu (Martinková & Hladká, 2023, Chapman&Hall/CRC Press) a doprovodnému R-kovému kódu.
Sára Komasová - Analýza latentních profilů (5. 12.)

Sára Komasová - Analýza latentních profilů (STEM/ČVUT FD Ústav letecké dopravy/ FSV UK Experimental Lab for International Security Studies)
Termín: 5. 12.
Registrace: link

Zaměříme se na analytické situace, kdy je cílem identifikovat v datovém souboru distinktivní skupiny. Když je cílem zjistit, které případy jsou si mezi sebou vzájemně podobnější. Následně si společně vyzkoušíme jednu z možných metod - Analýzu latentních profilů a společně podobnou klasifikaci vytvoříme. V závěru se budeme věnovat kritické diskuzi nad výběrem vhodného modelu a zejména otázkám interpretace dosaženého řešení.
Kateřina Duspivová - Prostorová data a tvorba map (12. 12.)

Kateřina Duspivová - Prostorová data a tvorba map (STEM)
Termín: 12. 12.
Registrace: link

Jak zobrazit prostorová data? Už se vám to určitě stalo - potřebujete vytvořit v Rku mapu, ale pojmy jako polygony, shapefile, GeoJSON, LAU, NUTS, ZSJ jsou jak z jiného světa. Vysvětlíme si proto základní pojmy a zkusíme společně vytvořit jednoduchou mapu. Také si řekneme něco k teorii map a ukážeme si, co by na kvalitní mapě nemělo chybět.

Předchozí ročníky

Přehled workshopů pro akademický rok 2023/2024
Renáta Topinková - Webscraping v R (5.10)

Renáta Topinková - Webscraping v R (LMU Munich)
Termín: 5. 10.
Registrace: https://forms.office.com/e/BfHA4p1fJu
Tento workshop je 3hodinový!

API (application programming interfaces) jsou v dnešní době nezbytnou součástí digitálního světa, avšak získat z nich data, která potřebujeme, může být často výzvou. V tomto workshopu si vyzkoušíme stahování dat pomocí dedikovaných R balíčků pro konkrétní API, ale také se naučíme, co dělat, když takový balíček není k dispozici. Na závěr se podíváme, co dělat v situaci, kdy cílová platforma API neposkytuje.
Petr Chlubna - Zkrocení zlých dat (19.10)

Petr Chlubna - Zkrocení zlých dat (NMS)
Termín: 19. 10.
Registrace: https://forms.office.com/e/KV7WTc8tGy

V praxi se nesetkáváme pouze s čistými daty, často je potřeba před samotnou analýzou data upravit. Na jednoduchém příkladu si ukážeme několik kroků, jak z nehezkých dat udělat čistá data. Budeme pracovat s indexováním, s úpravami character proměnných a transformacemi (široká/dlouhá data).
Jakub Lysek - Vizualizace a komunikace výsledků kvantiativních analýz (2.11.)

Jakub Lysek - Vizualizace a komunikace výsledků kvantiativních analýz (Katedra politologie a evropských studií, FF UP v Olomouci)
Termín: 2. 11.
Registrace: https://forms.office.com/e/sbS0mVRig8

Jak komunikovat složité výsledky statistických modelů veřejnosti? Jak automatizovat výstupy analýz pro akademický text, seminární či diplomovou práci? V semináři probereme základní možnosti v programu R, zejména balíčky coefplot, texreg, interactions pro regresní modely, dále pak možnosti ggplot a plotly pro interaktivní grafické výstupy. Podíváme se také na to, jak využít Rmarkdown pro tvorbu akademických článků, či reportů analýz.
Michael Škvrňák - Survey experimenty (16.11.)

Michael Škvrňák - Survey experimenty (Sociologický ústav AV ČR, PAQ Research)
Termín: 16. 11.
Registace: https://forms.office.com/e/bYhnbQACvh

Tento workshop představuje survey experimenty sloužící k odhalení (potenciálně citlivých) preferencí respondentů. Během workshopu budou představeny různé designy survey experimentů (jako např. conjoint experiment, list experiment) a způsob jejich analýzy.
Jan Netík - Nové možnosti v oblasti topic modelingu (30.11.)

Jan Netík - Nové možnosti v oblasti topic modelingu (Ústav informatiky AV ČR)
Termín: 30. 11.
Registrace: https://forms.office.com/e/81MvEuPebv

Detekce srozumitelných témat ve velkém množství textových dat je překvapivě náročná úloha. Tradičně využívané statistické postupy vyžadují mnohdy komplikované “předzpracování” dat a výsledky těchto metod mohou být neinterpretovatelné. Ve workshopu se proto zaměříme na nové pokroky v oblasti, které podnítily zejm. velké jazykové modely. V rámci praktické ukázky využijeme R i Python.
Adam Klocek - Uvedení do psychologických sítí (14.12.)

Adam Klocek - Uvedení do psychologických sítí (Psychologický ústav AVČR)
Termín: 14. 12.
Registrace: https://forms.office.com/e/6NBruzf4zH
Tento workshop je online

V semináři se stručně podíváme na pojetí známých psychologických konstruktů ze síťového úhlu pohledu, srovname mezi sebou faktorový a síťový model, v R budeme pracovat s balíčky bootnet, qgraph a psychonetrics. Ukážeme si, jak síťový model odhadnout, vizualizovat a posoudit interpretovatelnost výsledku.
Sára Komasová - Analýza latentních profilů (4.1.)

Sára Komasová - Analýza latentních profilů (STEM/ČVUT FD Ústav letecké dopravy/ FSV UK Experimental Lab for International Security Studies)
Termín: 4. 1.
Registrace: https://forms.office.com/e/7fjjR174qD

Zaměříme se na analytické situace, kdy je cílem identifikovat v datovém souboru distinktivní skupiny. Když je cílem zjistit, které případy jsou si mezi sebou vzájemně podobnější. Následně si společně vyzkoušíme jednu z možných metod - Analýzu latentních profilů a společně podobnou klasifikaci vytvoříme. V závěru se budeme věnovat kritické diskuzi nad výběrem vhodného modelu a zejména otázkám interpretace dosaženého řešení.