Sumarizace proměnncých je prováděně velmi podobně jako jejich transformace, slouží k ní ale funkce summarise(). Pokud jste si již osvojili funkci mutate() z předchozí kapitoly, budete i zde jako doma.
15.1 Jednoduchá sumarizace
Jak již bylo zmíněno, základní aplikace summarise() je velmi podobná transformaci proměnných. Výpočet průměru a směrodatné odchylky průměrné naděje na dožití je tedy jednodochý. V rámci summarise() je možné aplikovat nejen klasické funkce jako jsou mean() nebo sd(), ale i základní matematické operace. Stejně tak je možné i používat i funkce vnořené. Toho využijme pro výpočet průměrné absolutní odchylky (mean absolute deviation), alternativy ke směrodatné odchylce:
# A tibble: 1 × 3
mean sd mae
<dbl> <dbl> <dbl>
1 79.6 2.82 2.58
Průměrná naděje na dožití v našem datasetu je 79.6 let, se směrodatnou odchylkou 2.8 roku a průměrnou absolutní odchylkou 2.6 roku. Protože naději na dožití některých zemí neznáme, je nutné využít na.rm = TRUE pro odstranění chybějících hodnot (viz Sekce 6.2).
15.2 Sumarizace po skupinách
Funkci summarise() lze jako mnoho již představených kombinovat s funkcí group_by() pro skupinovou analýzu. Pro získání průměru, směrodatné odchylky a průměrné absolutní odchylky naděje na dožití postsovětských a západních zemí:
# A tibble: 2 × 4
postsoviet mean sd mae
<chr> <dbl> <dbl> <dbl>
1 no 81.4 1.76 1.06
2 yes 77.1 1.97 1.57
Postsovětské země mají v průměru nižší naději na dožití, než ty západní, jsou ale také mezi nimi větší rozdíly, což je možné vidět jak na základě směrodatné, tak absolutní odchylky.