Úvod do statistiky

4.1

Tabulky četností

Tabulka četností nebo také rozdělení četností představuje jednoduchý a přehledný způsob, jak prezentovat zjištěné údaje. Tyto tabulky slouží zpravidla pro agregaci četností hodnot zkoumané proměnné. Tabulka obsahuje obměnu zkoumané proměnné. Jedná se o určité varianty výsledků, kategorie, jejichž počet budeme značit písmenem k. Zkoumanou proměnnou může být například počet dětí v rodině a jeho obměnami, variantami výsledků, jsou možnosti „0“, „1“, „2“, „3 a více dětí“. Dále jsou v tabulce uvedeny různé druhy četností. Četností rozumíme frekvenci výskytu, kolikrát se daný výsledek v souboru objevil. Podle jednotek, ve kterých se tato frekvence uvádí, rozlišujeme dva druhy četností, absolutní a relativní.

Absolutní četnost udává, kolikrát se v daném souboru vyskytuje první, druhá, třetí, …, k-tá kategorie sledované proměnné. Pokud použijeme náš vzorový příklad, kolikrát se ve zkoumaném souboru objevila odpověď „0 dětí v rodině“, „1 dítě v rodině“ atd. Tuto absolutní četnost označíme obecně n_i. Pro absolutní četnosti platí, že jejich součet (přes všechny kategorie sledované proměnné) udává rozsah zkoumaného souboru, který značíme n, tj.

\sum_{i = 1}^{k} n_{i}

Relativní četnost udává podíl příslušné i-té kategorie sledované proměnné na celku a značíme ji p_i

p_{i} = \frac{n_{i}}{n}

Po vynásobení stem získáme informaci, kolik procent z celkového souboru tvoří příslušná kategorie. Tzn. jaké má relativní zastoupení odpověď „0 dětí v rodině“, „1 dítě v rodině“ atd. Pro relativní četnosti platí, že jejich součet (přes všechny kategorie sledované proměnné) je vždy jedna (resp. 100 %), tj.

\sum_{i = 1}^{k} p_{i} = 1

Poznámka

Jestliže nám nevyjde součet všech relativních četností v tabulce roven jedné, nejspíše došlo k chybě při výpočtech anebo k chybě vlivem zaokrouhlení. Pokud se jedná o chybu, která vznikla zaokrouhlováním relativních četností, pak je nutné opravit toto zaokrouhlování tak, aby došlo k co nejmenšímu rozdílu a zároveň součet relativních četností byl roven přesně 1.

„Kromě uvedených dvou způsobů konstrukce rozdělení četností konstruujeme ještě někdy rozdělení kumulativních absolutních a kumulativních relativních četností, které podávají informaci o tom, kolik jednotek souboru, resp. jaká poměrná část souboru má variantu proměnné menší nebo rovnou určité dané obměně.“ [1] Zjednodušeně řečeno kumulativní četnosti vznikají postupným načítáním absolutních nebo relativních četností popsaných dříve. Kumulativní četnosti budeme značit velkými písmeny, kumulativní absolutní četnosti N_i a kumulativní relativní četnosti P_i. Kumulativní četnosti počítáme v případě proměnných, u nichž má smysl sledovat pořadí hodnot, tzn. kvalitativní ordinální proměnné a kvantitativní spojité i nespojité proměnné.

Označíme-li jednotlivé obměny proměnné symbolem x_i, i = 1, 2, 3, …, k, a jim odpovídající četnosti n_i, i = 1, 2, 3, …, k, je možné tabulku četností zapsat níže uvedeným způsobem 1.

Tabulka 1. Obecné schéma tabulky rozdělení četností

Obměna proměnné x_i	Četnost		Kumulativní četnost
Obměna proměnné x_i	Absolutní n_i	Relativní p_i	Absolutní N_i	Relativní P_i
x₁	n₁	p₁	N₁ = n₁	P₁ = p₁
x₂	n₂	p₂	N₂ = n₁ + n₂	P₂ = p₁ + p₂
x₃	n₃	p₃	N₃ = n₁ + n₂+ n₃	P₃ = p₁ + p₂ + p₃
…	…	…	…	…
x_k	n_k	p_k	n	1
celkem	n	1	Tuto buňku proškrtáváme, protože součet nemá interpretaci	Tuto buňku proškrtáváme, protože součet nemá interpretaci

Podrobný postup tvorby tabulky četností je ukázán v následujícím videu na vzorovém příkladu.

Video 1. Jednoduchá tabulka četností

A nyní si můžete na příkladu sami vyzkoušet, zda zvládnete vytvořit tabulku četností správně.

Příklad

Příklad – konstrukce tabulky četností

V našem ilustrativním příkladu odborně proškolený tazatel oslovil 25 obyvatel sídliště Velký kopec a ptal se jich na počet dětí žijících v jejich domácnosti. Data, která získal, jsou v neutříděné podobě uvedena v tabulce níže. Z těchto údajů sestavte tabulku rozdělení četností.

Pořadové číslo obyvatele	Počet dětí v domácnosti	Pořadové číslo obyvatele	Počet dětí v domácnosti	Pořadové číslo obyvatele	Počet dětí v domácnosti	Pořadové číslo obyvatele	Počet dětí v domácnosti	Pořadové číslo obyvatele	Počet dětí v domácnosti
1	2	6	0	11	2	16	3	21	1
2	1	7	1	12	2	17	2	22	2
3	1	8	0	13	0	18	0	23	2
4	0	9	4	14	1	19	2	24	2
5	3	10	1	15	0	20	2	25	0

Zobrazit řešení

Skrýt řešení

Řešení

Nejprve je nutné zapsat všechny obměny zkoumané proměnné. V našem případě se jedná o počet dětí v domácnosti. Takže do sloupečku x_i napíšeme vzestupně seřazené počty dětí, které jsme v šetření zaznamenali (0, 1, 2, 3, 4).

Poté do dalšího sloupce n_i doplníme absolutní počty / četnosti výskytů daných výsledků. V prvním řádku se tedy jedná o počet nul (bezdětných domácností) v našem šetření. Pokud dobře počítáme, mělo by jich být celkem 7. V druhém řádku absolutních četností uvedeme, kolikrát bylo v šetření zaznamenáno jedno dítě v rodině. Opět, pokud sčítáme správně, dojdeme k číslu 6. Takto postupujeme řádek po řádku přes všechny varianty výsledků. Do posledního řádku tabulky uvedeme celkový součet absolutních četností (v našem případě roven 25).

Nyní vypočítáme sloupec relativních četností. Jak bylo uvedeno výše, relativní četnost představuje podíl příslušné i-té kategorie sledované proměnné na celkovém počtu. Jednoduše řečeno, abychom získali relativní četnost v prvním řádku (bezdětné rodiny), tak musíme vypočítat podíl absolutní četnosti v prvním řádku ku celkovému počtu (7 : 25 = 0,28). Pokud tuto hodnotu vynásobíme 100, získáme výsledek v procentech a můžeme říci, že bezdětné rodiny tvoří v našem souboru 28 % z celku. Analogicky postupujeme u druhého řádku. Takže vypočítáme podíl 6 : 25, což je 0,24 (rodiny s jedním dítětem jsou v našem souboru zastoupeny z 24 %). Tento postup opakujeme pro každý řádek, vždy pouze dosadíme správnou hodnotu do čitatele zlomku (jmenovatel / celkový počet zůstává neměnný). Do posledního řádku tabulky uvedeme celkový součet relativních četností, který musí být vždy roven 1 (jinak jsme udělali výpočetní nebo zaokrouhlovací chybu!).

Do čtvrtého sloupce naší tabulky vyplníme kumulativní absolutní četnosti. Hodnota v prvním řádku kumulativní absolutní četnosti je stejná jako hodnota, kterou jsme zapsali ve druhém sloupci u absolutní četnosti bezdětných domácností (tzn. četnost 7). Kumulativní absolutní četnost v druhém řádku je součtem absolutních četností z prvního a druhého řádku (7 + 6 = 13). Kumulativní absolutní četnost ve třetím řádku je součtem absolutních četností z prvního, druhého a třetího řádku (7 + 6 + 9 = 22). Výpočet absolutních kumulativních četností ukončíme v šestém řádku naší tabulky, kde by nám mělo vyjít číslo 25 (stejné jako součet všech absolutních četností). Hodnoty kumulativních četností se nám budou hodit později při určování kvantilů. Úplně poslední (součtový) řádek, v případě kumulativních četností, nevyplňujeme.

Do pátého sloupce tabulky vyplníme kumulativní relativní četnosti. Hodnota v prvním řádku kumulativní relativní četnosti je stejná jako hodnota, kterou jsme zapsali ve třetím sloupci u relativní četnosti bezdětných domácností (tzn. četnost 0,28). Kumulativní relativní četnost v druhém řádku je součtem relativních četností z prvního a druhého řádku (0,28 + 0,24 = 0,52). Kumulativní relativní četnost ve třetím řádku je součtem relativních četností z prvního, druhého a třetího řádku (0,28 + 0,24 + 0,36 = 0,88). Výpočet absolutních kumulativních četností ukončíme v šestém řádku naší tabulky, kde by nám mělo vyjít číslo 1 (stejné jako součet všech relativních četností). Úplně poslední (součtový) řádek v případě kumulativních četností nevyplňujeme.

x_i	n_i	p_i	N_i	P_i
0	7	0,28	7	0,28
1	6	0,24	13	0,52
2	9	0,36	22	0,88
3	2	0,08	24	0,96
4	1	0,04	25	1
celkem	25	1

Pokud tabulku četností konstruujeme pro kvantitativní nespojité nebo kvalitativní ordinální proměnné, většinou nabývají malého počtu možných výsledků, kategorií. Jestliže budeme konstruovat tabulku četností pro kvantitativní proměnnou, která nabývá velkého počtu variant hodnot, je třeba v tabulce vytvořit místo jednotlivých hodnot intervaly. Tyto intervaly musí být vzájemně disjunktní (vylučující se), což znamená, že meze dvou sousedních intervalů se nesmí překrývat. Toto pravidlo je zde proto, abychom byli schopni jednoznačně přiřadit výslednou hodnotu do jednoho intervalu. Představme si to na příkladu výšky člověka (v cm). V tabulce četností budeme mít připravené varianty odpovědí rozčleněné do intervalů „<140–150>“, „<150–160>“, „<160–170>“ atd. Do které skupiny (řádku) byste zapsali osobu, která uvede, že měří 150 cm? Z tohoto důvodu je tedy nutné, aby intervaly na sebe těsně navazovaly, ale nepřekrývaly se (např. tako „<140–149>“, „<150–159>“, „<160–169>“ atd.).

K tomu, na kolik intervalů je vhodné zaznamenané hodnoty rozdělit, se používá více postupů. Pro ilustraci zde uvedeme jeden z nich. Pokud si označíme písmenem k počet intervalů, pak je možné určit počet intervalů pomocí následujícího výpočtu

k = \sqrt{n}

, kde n je celkový rozsah, velikost souboru. Pro stanovení vhodné šířky intervalu je možné použít tento vzorec:

\frac{x_{m a x} - x_{m i n}}{k}

kde x_max a x_min jsou maximální a minimální hodnota sledované proměnné a k je počet intervalů, do nichž chceme přiřadit hodnoty sledované kvantitativní proměnné.

„Hodnota, kterou získáme … je minimální šířka intervalu, kterou musíme dodržet, abychom mohli hodnoty sledované proměnné rozdělit do k intervalů. Tuto hodnotu bývá zvykem zaokrouhlovat směrem nahoru a na celá čísla podle povahy sledované proměnné. Například při sledování statistické proměnné příjem bývá vhodné zaokrouhlit tuto šířku na celé tisíce. Zbytek tabulky pro spojitou proměnnou zůstává stejný jako u tabulky pro proměnnou diskrétní. V případě intervalového rozdělení četností je jako ekvivalentní zástupce všech hodnot v daném intervalu volen střed intervalu.“ [3]

Další způsob, kterým se stanovuje optimální počet intervalů je tzv. Sturgesovo pravidlo:

1 + 3,3 l o g (n)

kde n je rozsah souboru.

Ukázka vytvoření a práce s intervalovou tabulkou četností je zachycena v následujícím videu.

Video 2. Tabulka rozdělení četností s intervaly

Poznámka

Pokud pro své výpočty (aritmetického průměru, modu, rozptylu atd.) používáte středy intervalů, pak mějte na paměti, že výsledná hodnota se může od původních hodnot (nezapsaných v intervalu) lišit v závislosti na velikosti intervalu a také s ohledem na variabilitu uvnitř intervalu.

Pro zájemce, kteří si chtějí procvičit práci se sumacemi, doporučuji první kapitolu publikace [3].

Souhrn

Tabulky četností slouží zpravidla pro agregaci četností hodnot zkoumané proměnné. Četností rozumíme frekvenci výskytu, kolikrát se daný výsledek v souboru objevil. Absolutní četnost udává, kolikrát se v daném souboru vyskytuje k-tá kategorie sledované proměnné a značíme ji obecně n_i. Relativní četnost udává podíl příslušné i-té kategorie sledované proměnné na celku a značíme ji p_i.Pro relativní četnosti platí, že jejich součet (přes všechny kategorie sledované proměnné) je vždy roven jedné. Kumulativní četnosti vznikají postupným načítáním absolutních nebo relativních četností. Kumulativní absolutní četnosti značíme N_i a kumulativní relativní četnosti P_i.