Důležitými pojmy v analýze jsou široký (wide) a dlouhý (long) formát uchovávání dat. Naštěstí pro nás se nejedná o nic složitého, jde pouze o způsob orientace dataframů. V širokém formátu jsou uchovány horizontálně, zatímco v dlouhém formátu jsou data orientovány vertikálně. Obsah dataframu se nemění, jediným rozdílem je forma:
country |
gdp |
life_exp |
poverty_risk |
Czechia |
207772.4 |
79.2 |
0.122 |
Germany |
3386000.0 |
81.0 |
0.190 |
Norway |
368388.9 |
82.5 |
0.160 |
country |
name |
value |
Czechia |
gdp |
207772.400 |
Czechia |
life_exp |
79.200 |
Czechia |
poverty_risk |
0.122 |
Germany |
gdp |
3386000.000 |
Germany |
life_exp |
81.000 |
Germany |
poverty_risk |
0.190 |
Norway |
gdp |
368388.900 |
Norway |
life_exp |
82.500 |
Norway |
poverty_risk |
0.160 |
Zpravidla je široký formát intuitivnější pro lidi, zatímco ten dlouhý se lépe čte počítačům. V praxi proto budeme převádět data mezi formáty často a poslouží nám k tomu dvojice funkcí z balíčku tidyr
: pivot_wider()
a pivot_longer()
.