4.1
Tabulky četností
Tabulka četností nebo také rozdělení četností představuje jednoduchý a přehledný způsob, jak prezentovat zjištěné údaje. Tyto tabulky slouží zpravidla pro agregaci četností hodnot zkoumané proměnné. Tabulka obsahuje obměnu zkoumané proměnné. Jedná se o určité varianty výsledků, kategorie, jejichž počet budeme značit písmenem k. Zkoumanou proměnnou může být například počet dětí v rodině a jeho obměnami, variantami výsledků, jsou možnosti „0“, „1“, „2“, „3 a více dětí“. Dále jsou v tabulce uvedeny různé druhy četností. Četností rozumíme frekvenci výskytu, kolikrát se daný výsledek v souboru objevil. Podle jednotek, ve kterých se tato frekvence uvádí, rozlišujeme dva druhy četností, absolutní a relativní.
Absolutní četnost udává, kolikrát se v daném souboru vyskytuje první, druhá, třetí, …, k-tá kategorie sledované proměnné. Pokud použijeme náš vzorový příklad, kolikrát se ve zkoumaném souboru objevila odpověď „0 dětí v rodině“, „1 dítě v rodině“ atd. Tuto absolutní četnost označíme obecně ni. Pro absolutní četnosti platí, že jejich součet (přes všechny kategorie sledované proměnné) udává rozsah zkoumaného souboru, který značíme n, tj.
i=1kni
Relativní četnost udává podíl příslušné i-té kategorie sledované proměnné na celku a značíme ji pi
pi=nin
Po vynásobení stem získáme informaci, kolik procent z celkového souboru tvoří příslušná kategorie. Tzn. jaké má relativní zastoupení odpověď „0 dětí v rodině“, „1 dítě v rodině“ atd. Pro relativní četnosti platí, že jejich součet (přes všechny kategorie sledované proměnné) je vždy jedna (resp. 100 %), tj.
i=1kpi=1 .
Poznámka
Jestliže nám nevyjde součet všech relativních četností v tabulce roven jedné, nejspíše došlo k chybě při výpočtech anebo k chybě vlivem zaokrouhlení. Pokud se jedná o chybu, která vznikla zaokrouhlováním relativních četností, pak je nutné opravit toto zaokrouhlování tak, aby došlo k co nejmenšímu rozdílu a zároveň součet relativních četností byl roven přesně 1.
Kromě uvedených dvou způsobů konstrukce rozdělení četností konstruujeme ještě někdy rozdělení kumulativních absolutních a kumulativních relativních četností, které podávají informaci o tom, kolik jednotek souboru, resp. jaká poměrná část souboru má variantu proměnné menší nebo rovnou určité dané obměně.[1] Zjednodušeně řečeno kumulativní četnosti vznikají postupným načítáním absolutních nebo relativních četností popsaných dříve. Kumulativní četnosti budeme značit velkými písmeny, kumulativní absolutní četnosti Ni a kumulativní relativní četnosti Pi. Kumulativní četnosti počítáme v případě proměnných, u nichž má smysl sledovat pořadí hodnot, tzn. kvalitativní ordinální proměnné a kvantitativní spojité i nespojité proměnné.
Označíme-li jednotlivé obměny proměnné symbolem xi, i = 1, 2, 3, …, k, a jim odpovídající četnosti ni, i = 1, 2, 3, …, k, je možné tabulku četností zapsat níže uvedeným způsobem 1.
Tabulka 1. Obecné schéma tabulky rozdělení četností
Obměna proměnné
xi
Četnost
Kumulativní četnost
Absolutní
ni
Relativní
pi
Absolutní
Ni
Relativní
Pi
x1
n1
p1
N1 = n1
P1 = p1
x2
n2
p2
N2 = n1 + n2
P2 = p1 + p2
x3
n3
p3
N3 = n1 + n2+ n3
P3 = p1 + p2 + p3
xk
nk
pk
n
1
celkem
n
1
Tuto buňku proškrtáváme, protože součet nemá interpretaci
Tuto buňku proškrtáváme, protože součet nemá interpretaci
Podrobný postup tvorby tabulky četností je ukázán v následujícím videu na vzorovém příkladu.
Video 1. Jednoduchá tabulka četností
A nyní si můžete na příkladu sami vyzkoušet, zda zvládnete vytvořit tabulku četností správně.
Příklad
Příklad – konstrukce tabulky četností
V našem ilustrativním příkladu odborně proškolený tazatel oslovil 25 obyvatel sídliště Velký kopec a ptal se jich na počet dětí žijících v jejich domácnosti. Data, která získal, jsou v neutříděné podobě uvedena v tabulce níže. Z těchto údajů sestavte tabulku rozdělení četností.
Pořadové číslo obyvatele
Počet dětí v domácnosti
Pořadové číslo obyvatele
Počet dětí v domácnosti
Pořadové číslo obyvatele
Počet dětí v domácnosti
Pořadové číslo obyvatele
Počet dětí v domácnosti
Pořadové číslo obyvatele
Počet dětí v domácnosti
1
2
6
0
11
2
16
3
21
1
2
1
7
1
12
2
17
2
22
2
3
1
8
0
13
0
18
0
23
2
4
0
9
4
14
1
19
2
24
2
5
3
10
1
15
0
20
2
25
0
Zobrazit řešení
Skrýt řešení
Řešení
Nejprve je nutné zapsat všechny obměny zkoumané proměnné. V našem případě se jedná o počet dětí v domácnosti. Takže do sloupečku xi napíšeme vzestupně seřazené počty dětí, které jsme v šetření zaznamenali (0, 1, 2, 3, 4).
Poté do dalšího sloupce ni doplníme absolutní počty / četnosti výskytů daných výsledků. V prvním řádku se tedy jedná o počet nul (bezdětných domácností) v našem šetření. Pokud dobře počítáme, mělo by jich být celkem 7. V druhém řádku absolutních četností uvedeme, kolikrát bylo v šetření zaznamenáno jedno dítě v rodině. Opět, pokud sčítáme správně, dojdeme k číslu 6. Takto postupujeme řádek po řádku přes všechny varianty výsledků. Do posledního řádku tabulky uvedeme celkový součet absolutních četností (v našem případě roven 25).
Nyní vypočítáme sloupec relativních četností. Jak bylo uvedeno výše, relativní četnost představuje podíl příslušné i-té kategorie sledované proměnné na celkovém počtu. Jednoduše řečeno, abychom získali relativní četnost v prvním řádku (bezdětné rodiny), tak musíme vypočítat podíl absolutní četnosti v prvním řádku ku celkovému počtu (7 : 25 = 0,28). Pokud tuto hodnotu vynásobíme 100, získáme výsledek v procentech a můžeme říci, že bezdětné rodiny tvoří v našem souboru 28 % z celku. Analogicky postupujeme u druhého řádku. Takže vypočítáme podíl 6 : 25, což je 0,24 (rodiny s jedním dítětem jsou v našem souboru zastoupeny z 24 %). Tento postup opakujeme pro každý řádek, vždy pouze dosadíme správnou hodnotu do čitatele zlomku (jmenovatel / celkový počet zůstává neměnný). Do posledního řádku tabulky uvedeme celkový součet relativních četností, který musí být vždy roven 1 (jinak jsme udělali výpočetní nebo zaokrouhlovací chybu!).
Do čtvrtého sloupce naší tabulky vyplníme kumulativní absolutní četnosti. Hodnota v prvním řádku kumulativní absolutní četnosti je stejná jako hodnota, kterou jsme zapsali ve druhém sloupci u absolutní četnosti bezdětných domácností (tzn. četnost 7). Kumulativní absolutní četnost v druhém řádku je součtem absolutních četností z prvního a druhého řádku (7 + 6 = 13). Kumulativní absolutní četnost ve třetím řádku je součtem absolutních četností z prvního, druhého a třetího řádku (7 + 6 + 9 = 22). Výpočet absolutních kumulativních četností ukončíme v šestém řádku naší tabulky, kde by nám mělo vyjít číslo 25 (stejné jako součet všech absolutních četností). Hodnoty kumulativních četností se nám budou hodit později při určování kvantilů. Úplně poslední (součtový) řádek, v případě kumulativních četností, nevyplňujeme.
Do pátého sloupce tabulky vyplníme kumulativní relativní četnosti. Hodnota v prvním řádku kumulativní relativní četnosti je stejná jako hodnota, kterou jsme zapsali ve třetím sloupci u relativní četnosti bezdětných domácností (tzn. četnost 0,28). Kumulativní relativní četnost v druhém řádku je součtem relativních četností z prvního a druhého řádku (0,28 + 0,24 = 0,52). Kumulativní relativní četnost ve třetím řádku je součtem relativních četností z prvního, druhého a třetího řádku (0,28 + 0,24 + 0,36 = 0,88). Výpočet absolutních kumulativních četností ukončíme v šestém řádku naší tabulky, kde by nám mělo vyjít číslo 1 (stejné jako součet všech relativních četností). Úplně poslední (součtový) řádek v případě kumulativních četností nevyplňujeme.
xi
ni
pi
Ni
Pi
0
7
0,28
7
0,28
1
6
0,24
13
0,52
2
9
0,36
22
0,88
3
2
0,08
24
0,96
4
1
0,04
25
1
celkem
25
1
  
Pokud tabulku četností konstruujeme pro kvantitativní nespojité nebo kvalitativní ordinální proměnné, většinou nabývají malého počtu možných výsledků, kategorií. Jestliže budeme konstruovat tabulku četností pro kvantitativní proměnnou, která nabývá velkého počtu variant hodnot, je třeba v tabulce vytvořit místo jednotlivých hodnot intervaly. Tyto intervaly musí být vzájemně disjunktní (vylučující se), což znamená, že meze dvou sousedních intervalů se nesmí překrývat. Toto pravidlo je zde proto, abychom byli schopni jednoznačně přiřadit výslednou hodnotu do jednoho intervalu. Představme si to na příkladu výšky člověka (v cm). V tabulce četností budeme mít připravené varianty odpovědí rozčleněné do intervalů „<140–150>“, „<150–160>“, „<160–170>“ atd. Do které skupiny (řádku) byste zapsali osobu, která uvede, že měří 150 cm? Z tohoto důvodu je tedy nutné, aby intervaly na sebe těsně navazovaly, ale nepřekrývaly se (např. tako „<140–149>“, „<150–159>“, „<160–169>“ atd.).
K tomu, na kolik intervalů je vhodné zaznamenané hodnoty rozdělit, se používá více postupů. Pro ilustraci zde uvedeme jeden z nich. Pokud si označíme písmenem k počet intervalů, pak je možné určit počet intervalů pomocí následujícího výpočtu k= n , kde n je celkový rozsah, velikost souboru. Pro stanovení vhodné šířky intervalu je možné použít tento vzorec:
xmax- xmink ,
kde xmaxxmin jsou maximální a minimální hodnota sledované proměnné a k je počet intervalů, do nichž chceme přiřadit hodnoty sledované kvantitativní proměnné.
Hodnota, kterou získáme … je minimální šířka intervalu, kterou musíme dodržet, abychom mohli hodnoty sledované proměnné rozdělit do k intervalů. Tuto hodnotu bývá zvykem zaokrouhlovat směrem nahoru a na celá čísla podle povahy sledované proměnné. Například při sledování statistické proměnné příjem bývá vhodné zaokrouhlit tuto šířku na celé tisíce. Zbytek tabulky pro spojitou proměnnou zůstává stejný jako u tabulky pro proměnnou diskrétní. V případě intervalového rozdělení četností je jako ekvivalentní zástupce všech hodnot v daném intervalu volen střed intervalu.[3]
Další způsob, kterým se stanovuje optimální počet intervalů je tzv. Sturgesovo pravidlo:
1+3,3 log(n) ,
kde n je rozsah souboru.
Ukázka vytvoření a práce s intervalovou tabulkou četností je zachycena v následujícím videu.
Video 2. Tabulka rozdělení četností s intervaly
Poznámka
Pokud pro své výpočty (aritmetického průměru, modu, rozptylu atd.) používáte středy intervalů, pak mějte na paměti, že výsledná hodnota se může od původních hodnot (nezapsaných v intervalu) lišit v závislosti na velikosti intervalu a také s ohledem na variabilitu uvnitř intervalu.
Pro zájemce, kteří si chtějí procvičit práci se sumacemi, doporučuji první kapitolu publikace [3].
Souhrn
Tabulky četností slouží zpravidla pro agregaci četností hodnot zkoumané proměnné. Četností rozumíme frekvenci výskytu, kolikrát se daný výsledek v souboru objevil. Absolutní četnost udává, kolikrát se v daném souboru vyskytuje k-tá kategorie sledované proměnné a značíme ji obecně ni. Relativní četnost udává podíl příslušné i-té kategorie sledované proměnné na celku a značíme ji pi. Pro relativní četnosti platí, že jejich součet (přes všechny kategorie sledované proměnné) je vždy roven jedné. Kumulativní četnosti vznikají postupným načítáním absolutních nebo relativních četností. Kumulativní absolutní četnosti značíme Ni a kumulativní relativní četnosti Pi.