Multimediaexpo.cz je již 18 let na českém internetu !!
Kontingenční tabulka
Z Multimediaexpo.cz
m (Nahrazení textu „<math>“ textem „<big>\(“) |
m (Nahrazení textu „</math>“ textem „\)</big>“) |
||
Řádka 8: | Řádka 8: | ||
== Typ kontingenční tabulky == | == Typ kontingenční tabulky == | ||
- | Typ kontingenční tabulky se určuje počtem řádků <big>\(r</ | + | Typ kontingenční tabulky se určuje počtem řádků <big>\(r\)</big> a sloupců <big>\(s\)</big> jako <big>\(r \times s\)</big>. Kontingenční tabulka typu <big>\(2\times 2\)</big> se nazývá čtyřpolní tabulka a slouží ke srovnání dvou [[dichotomický znak|dichotomických znaků]]. |
Příkladem kontingenční tabulky typu 2×2 může být následující smyšlený průzkum zastoupení [[levák]]ů a [[pravák]]ů mezi ženami a muži. | Příkladem kontingenční tabulky typu 2×2 může být následující smyšlený průzkum zastoupení [[levák]]ů a [[pravák]]ů mezi ženami a muži. | ||
Řádka 40: | Řádka 40: | ||
;Označme | ;Označme | ||
- | * <big>\(n_{ij}</ | + | * <big>\(n_{ij}\)</big> četnost v řádku ''i'' a sloupci ''j'' (počet pokusů, při nichž má první znak hodnotu odpovídající řádku ''i'' a druhý znak hodnotu odpovídající sloupci ''j'') |
- | * <big>\(R_i</ | + | * <big>\(R_i\)</big> součet všech četností v řádku ''i'' (počet pokusů, při nichž má první znak hodnotu odpovídající řádku ''i'' bez ohledu na druhý znak) |
- | * <big>\(S_j</ | + | * <big>\(S_j\)</big> součet všech četností ve sloupci ''j'' (počet pokusů, při nichž má druhý znak hodnotu také odpovídající sloupci ''j'' bez ohledu na první znak) |
- | * <big>\(N</ | + | * <big>\(N\)</big> součet četností v celé tabulce (počet všech pokusů) |
Potom za platnosti hypotézy nezávislosti (resp. homogenity) je očekávaná četnost v řádku ''i'' a sloupci ''j'' rovna: | Potom za platnosti hypotézy nezávislosti (resp. homogenity) je očekávaná četnost v řádku ''i'' a sloupci ''j'' rovna: | ||
- | <big>\(m_{ij} = \frac{R_i S_j}{N}</ | + | <big>\(m_{ij} = \frac{R_i S_j}{N}\)</big> |
a testování hypotézy je založeno na hodnotě testové statistiky | a testování hypotézy je založeno na hodnotě testové statistiky | ||
- | <big>\(\chi ^2 = \sum_{i=1}^r \sum_{j=1}^s \frac{(n_{ij}-m_{ij})^2}{m_{ij}}</ | + | <big>\(\chi ^2 = \sum_{i=1}^r \sum_{j=1}^s \frac{(n_{ij}-m_{ij})^2}{m_{ij}}\)</big> |
Pokud hypotéza nezávislosti (resp. homogenity) platí, má testová statistika přibližně rozdělení [[chí kvadrát]] o (''r''-1)(''s''-1) stupních volnosti. Hodnota testové statistiky se tedy porovná s kritickou hodnotou ([[kvantil]]em) příslušné [[hladina významnosti|hladiny významnosti]]. | Pokud hypotéza nezávislosti (resp. homogenity) platí, má testová statistika přibližně rozdělení [[chí kvadrát]] o (''r''-1)(''s''-1) stupních volnosti. Hodnota testové statistiky se tedy porovná s kritickou hodnotou ([[kvantil]]em) příslušné [[hladina významnosti|hladiny významnosti]]. | ||
- | Ve výše uvedeném příkladu je hodnota testové statistiky rovna 1,78 a kritická hodnota rozdělení <big>\(\chi^2</ | + | Ve výše uvedeném příkladu je hodnota testové statistiky rovna 1,78 a kritická hodnota rozdělení <big>\(\chi^2\)</big> s jedním stupněm volnosti pro nejpoužívanější 5% [[hladina významnosti|hladiny významnosti]] je 3,84. Jelikož kritická hodnota není překročena, nelze hypotézu zamítnout a je tedy možné, že rozložení praváků a leváků v populaci nezávisí na pohlaví. |
Pro použití testů založených na testu dobré shody (zde test nezávislosti nebo homogenity) je třeba, aby se v tabulce vyskytlo méně než 20 % políček, v nichž by očekávané četnosti byly menší než 5. V případě, že se tak stane, můžeme zvážit transformaci — sloučení některých méně obsazených kategorií (např. "ano" a "spíše ano"). Tímto testem posuzujeme celou tabulku. | Pro použití testů založených na testu dobré shody (zde test nezávislosti nebo homogenity) je třeba, aby se v tabulce vyskytlo méně než 20 % políček, v nichž by očekávané četnosti byly menší než 5. V případě, že se tak stane, můžeme zvážit transformaci — sloučení některých méně obsazených kategorií (např. "ano" a "spíše ano"). Tímto testem posuzujeme celou tabulku. | ||
Řádka 63: | Řádka 63: | ||
;Míry asociace nominálních veličin | ;Míry asociace nominálních veličin | ||
- | Poměr šancí - anglicky ''odds ratio''; <big>\(OR = \frac {ad}{bc} </ | + | Poměr šancí - anglicky ''odds ratio''; <big>\(OR = \frac {ad}{bc} \)</big> |
{|class="wikitable" style="margin: 1em auto;" | {|class="wikitable" style="margin: 1em auto;" | ||
Řádka 76: | Řádka 76: | ||
Poměr počtu zdarů k počtu nezdarů je za jedněch podmínek a/c a za druhých b/d. Podíl těchto výrazů je roven OR. | Poměr počtu zdarů k počtu nezdarů je za jedněch podmínek a/c a za druhých b/d. Podíl těchto výrazů je roven OR. | ||
- | Střední chyba výrazu log(OR) se dá vyjádřit jako :<big>\(S.E.(log(OR))= \sqrt { \frac{1}{a}+ \frac{1}{b}+\frac{1}{c}+\frac{1}{d} }</ | + | Střední chyba výrazu log(OR) se dá vyjádřit jako :<big>\(S.E.(log(OR))= \sqrt { \frac{1}{a}+ \frac{1}{b}+\frac{1}{c}+\frac{1}{d} }\)</big> |
Při dostatečně velkých četnostech je přibližný [[interval spolehlivosti]] (log (OR)- S.E.(log(OR))z(alfa/2); log (OR)+ S.E.(log(OR))z(alfa/2)) | Při dostatečně velkých četnostech je přibližný [[interval spolehlivosti]] (log (OR)- S.E.(log(OR))z(alfa/2); log (OR)+ S.E.(log(OR))z(alfa/2)) | ||
- | Test hypotézy o rovnosti šancí OR a OR2 <big>\( z = \frac {\log (OR) - \log (OR2)}{\sqrt{(S.E.(\log(OR)))^2+(S.E.(\log(OR2)))^2}} </ | + | Test hypotézy o rovnosti šancí OR a OR2 <big>\( z = \frac {\log (OR) - \log (OR2)}{\sqrt{(S.E.(\log(OR)))^2+(S.E.(\log(OR2)))^2}} \)</big> |
Tuto statistiku můžeme použít např. při fiktivním testování hypotézy souvislosti pohlaví a přijetí k zaměstnavatelům A a B. | Tuto statistiku můžeme použít např. při fiktivním testování hypotézy souvislosti pohlaví a přijetí k zaměstnavatelům A a B. | ||
Řádka 95: | Řádka 95: | ||
- Spočítáme OR = 18.59/(40.12)= 2,2125 ; zjistíme log(OR) = 0,344; spočítáme střední chybu = cca 0,425; pak (0,344 - 1,96 . 0,425; 0,344 + 1,96 . 0,425) což vychází jako 95% interval spolehlivosti pro populační protějšek log(OR) (-0,489; 1,1177), odlogaritmováním získáme 95% interval spolehlivosti pro podíl šancí. Stejně budeme postupovat pro zaměstnavatele B. | - Spočítáme OR = 18.59/(40.12)= 2,2125 ; zjistíme log(OR) = 0,344; spočítáme střední chybu = cca 0,425; pak (0,344 - 1,96 . 0,425; 0,344 + 1,96 . 0,425) což vychází jako 95% interval spolehlivosti pro populační protějšek log(OR) (-0,489; 1,1177), odlogaritmováním získáme 95% interval spolehlivosti pro podíl šancí. Stejně budeme postupovat pro zaměstnavatele B. | ||
- | * <big>\( \phi = \sqrt{ \frac{X^2}{n}}</ | + | * <big>\( \phi = \sqrt{ \frac{X^2}{n}}\)</big> fí měří na rozdíl od OR také sílu míry asociace, nachází se v intervalu (0;1) pro 4 polní tabulku |
- | * Cramerovo <big>\( V =\sqrt{ \frac{X^2}{n(m-1)}} m = min (r - row,c - column)</ | + | * Cramerovo <big>\( V =\sqrt{ \frac{X^2}{n(m-1)}} m = min (r - row,c - column)\)</big> Získáme jej úpravou koeficientu <big>\( \phi\)</big>. |
- | * [[koeficient kontingence podle Pearsona]] - funguje podobně jako [[korelační koeficient]] <big>\( C(kor)= \frac{C}{C(max)} </ | + | * [[koeficient kontingence podle Pearsona]] - funguje podobně jako [[korelační koeficient]] <big>\( C(kor)= \frac{C}{C(max)} \)</big> Je založen na statistice chí. |
;Míry asociace ordinálních veličin | ;Míry asociace ordinálních veličin | ||
Řádka 103: | Řádka 103: | ||
* [[Wilcoxonův test]] | * [[Wilcoxonův test]] | ||
* [[Mann-Whitney test]] | * [[Mann-Whitney test]] | ||
- | * [[Kendallův korelační koeficient]] <big>\( \tau_k</ | + | * [[Kendallův korelační koeficient]] <big>\( \tau_k\)</big> - tau k, založený na počtu [[konkordancí]] a [[diskordancí]] |
- | * [[Goodman-Kruskalův koeficient]] <big>\( \gamma</ | + | * [[Goodman-Kruskalův koeficient]] <big>\( \gamma\)</big> je variantou kendallova <big>\( \tau_k\)</big> |
Pokud je ordinální jen jedna, pak: | Pokud je ordinální jen jedna, pak: | ||
* [[Kruskal-Wallisův test]] | * [[Kruskal-Wallisův test]] |
Aktuální verze z 14. 8. 2022, 14:51
Kontingenční tabulka se užívá k přehledné vizualizaci vzájemného vztahu dvou statistických znaků. Řádky kontingenční tabulky odpovídají možným hodnotám prvního znaku, sloupce pak možným hodnotám druhého znaku. V příslušné buňce kontingenční tabulky je pak zařazen počet případů, kdy zároveň měl první znak hodnotu odpovídající příslušnému řádku a druhý znak hodnotu odpovídající příslušnému sloupci. Například prvním znakem může být pohlaví člověka a druhým znakem měsíc jeho narození. Kontingenční tabulka o 2 řádcích (žena, muž) a 12 sloupcích (leden, únor,…, prosinec) pak popisuje počty výskytů všech kombinací pohlaví a měsíce v nějakém souboru sledovaných jedinců.
Je možné, aby jeden řádek či sloupec odpovídal více možným hodnotám znaku. To se děje v případě, kdy znak nabývá některých hodnot příliš zřídka, takže je vhodné spojit více možných hodnot.
Součty (mezisoučty) všech hodnot v každém řádku, resp. sloupci nesou informaci o počtu výskytů jevů, při nichž nabyl první (resp. druhý znak) příslušné hodnoty bez ohledu na hodnotu druhého (resp. prvního) znaku.
Kromě prostého popisu četností kombinací hodnot dvou znaků nabízí kontingenční tabulka možnost testovat, zda mezi oběma znaky existuje nějaký vztah. K tomu lze užít např. test dobré shody. Znaky užité k zobrazení v kontingenční tabulce pak musí představovat diskrétní hodnoty (je možné tedy využít kvalitativní, diskrétně kvantitativní či spojitě kvantitativní znaky, v posledním případě však pouze s rozdělením jednotlivých znaků do skupin – tzv. skupinové třídění).
Obsah |
Typ kontingenční tabulky
Typ kontingenční tabulky se určuje počtem řádků \(r\) a sloupců \(s\) jako \(r \times s\). Kontingenční tabulka typu \(2\times 2\) se nazývá čtyřpolní tabulka a slouží ke srovnání dvou dichotomických znaků.
Příkladem kontingenční tabulky typu 2×2 může být následující smyšlený průzkum zastoupení leváků a praváků mezi ženami a muži.
praváci | leváci | celkem | |
---|---|---|---|
muži | 43 | 9 | 52 |
ženy | 44 | 4 | 48 |
celkem | 87 | 13 | 100 |
Užití kontingenční tabulky
Kontingenční tabulky umožňují testování různých statistických hypotéz, mezi nejobvyklejší testované hypotézy pak patří:
- hypotéza o nezávislosti znaků,
- hypotéza o shodnosti struktury (homogenitě) a
- hypotéza o symetrii vztahu.
Statistické míry a testování
Test nezávislosti a homogenity
Nezávislost v kontingenční tabulce znamená, že se oba znaky navzájem neovlivňují v tom, jakých konkrétních hodnot nabývají. Homogenita kontingenční tabulky znamená, že očekávané četnosti jsou v políčcích každého řádku ve stejném vzájemném poměru bez ohledu na konkrétní volbu řádku.
Ve výše uvedeném příkladu tedy hypotéza nezávislosti znamená, že pohlaví nemá žádný vliv na pravorukost/levorukost. Hypotéza homogenity pak znamená, že rozložení pravorukosti a levorukosti je stejné u mužů i žen.
Obě hypotézy znamenají z hlediska pravděpodobnosti zcela totéž, takže se pro jejich ověření používá stejný test.
Klasický test nezávislosti nebo homogenity je založen na testu dobré shody, tedy porovnání očekávaných četností v jednotlivých políčcích tabulky za předpokladu, že hodnoty obou sledovaných znaků na sobě nezávisí, a skutečných četností.
- Označme
- \(n_{ij}\) četnost v řádku i a sloupci j (počet pokusů, při nichž má první znak hodnotu odpovídající řádku i a druhý znak hodnotu odpovídající sloupci j)
- \(R_i\) součet všech četností v řádku i (počet pokusů, při nichž má první znak hodnotu odpovídající řádku i bez ohledu na druhý znak)
- \(S_j\) součet všech četností ve sloupci j (počet pokusů, při nichž má druhý znak hodnotu také odpovídající sloupci j bez ohledu na první znak)
- \(N\) součet četností v celé tabulce (počet všech pokusů)
Potom za platnosti hypotézy nezávislosti (resp. homogenity) je očekávaná četnost v řádku i a sloupci j rovna:
\(m_{ij} = \frac{R_i S_j}{N}\)
a testování hypotézy je založeno na hodnotě testové statistiky
\(\chi ^2 = \sum_{i=1}^r \sum_{j=1}^s \frac{(n_{ij}-m_{ij})^2}{m_{ij}}\)
Pokud hypotéza nezávislosti (resp. homogenity) platí, má testová statistika přibližně rozdělení chí kvadrát o (r-1)(s-1) stupních volnosti. Hodnota testové statistiky se tedy porovná s kritickou hodnotou (kvantilem) příslušné hladiny významnosti.
Ve výše uvedeném příkladu je hodnota testové statistiky rovna 1,78 a kritická hodnota rozdělení \(\chi^2\) s jedním stupněm volnosti pro nejpoužívanější 5% hladiny významnosti je 3,84. Jelikož kritická hodnota není překročena, nelze hypotézu zamítnout a je tedy možné, že rozložení praváků a leváků v populaci nezávisí na pohlaví.
Pro použití testů založených na testu dobré shody (zde test nezávislosti nebo homogenity) je třeba, aby se v tabulce vyskytlo méně než 20 % políček, v nichž by očekávané četnosti byly menší než 5. V případě, že se tak stane, můžeme zvážit transformaci — sloučení některých méně obsazených kategorií (např. "ano" a "spíše ano"). Tímto testem posuzujeme celou tabulku.
Jiné testy v kontingenční tabulce
Statistika chí kvadrát nevypovídá nic o síle vztahu, pouze zamítá/nezamítá nulovou hypotézu o závislosti nebo homogenitě na dané hladině významnosti alfa. Pro zjištění síly vztahu používáme upravené koeficienty, případně testování založené na podílu šancí, eventuálně u ordinálních (tj. uspořádaných) veličin na pořadí. Odlišně testujeme nominální a ordinální veličiny.
- Míry asociace nominálních veličin
Poměr šancí - anglicky odds ratio; \(OR = \frac {ad}{bc} \)
výsledek pokusu | 1.populace | 2.populace | celkem |
---|---|---|---|
zdar | a | b | a + b |
nezdar | c | d | c + d |
celkem | a + c | b + d | n |
Poměr počtu zdarů k počtu nezdarů je za jedněch podmínek a/c a za druhých b/d. Podíl těchto výrazů je roven OR. Střední chyba výrazu log(OR) se dá vyjádřit jako :\(S.E.(log(OR))= \sqrt { \frac{1}{a}+ \frac{1}{b}+\frac{1}{c}+\frac{1}{d} }\)
Při dostatečně velkých četnostech je přibližný interval spolehlivosti (log (OR)- S.E.(log(OR))z(alfa/2); log (OR)+ S.E.(log(OR))z(alfa/2))
Test hypotézy o rovnosti šancí OR a OR2 \( z = \frac {\log (OR) - \log (OR2)}{\sqrt{(S.E.(\log(OR)))^2+(S.E.(\log(OR2)))^2}} \)
Tuto statistiku můžeme použít např. při fiktivním testování hypotézy souvislosti pohlaví a přijetí k zaměstnavatelům A a B.
zaměstnavatel A | muž | žena | celkem | B | muž | žena | celkem |
---|---|---|---|---|---|---|---|
přijat/a | 18 | 12 | 30 | * | 19 | 3 | 22 |
nepřijat/a | 40 | 59 | 99 | * | 18 | 19 | 37 |
celkem | 58 | 71 | 129 | * | 37 | 22 | 59 |
- Spočítáme OR = 18.59/(40.12)= 2,2125 ; zjistíme log(OR) = 0,344; spočítáme střední chybu = cca 0,425; pak (0,344 - 1,96 . 0,425; 0,344 + 1,96 . 0,425) což vychází jako 95% interval spolehlivosti pro populační protějšek log(OR) (-0,489; 1,1177), odlogaritmováním získáme 95% interval spolehlivosti pro podíl šancí. Stejně budeme postupovat pro zaměstnavatele B.
- \( \phi = \sqrt{ \frac{X^2}{n}}\) fí měří na rozdíl od OR také sílu míry asociace, nachází se v intervalu (0;1) pro 4 polní tabulku
- Cramerovo \( V =\sqrt{ \frac{X^2}{n(m-1)}} m = min (r - row,c - column)\) Získáme jej úpravou koeficientu \( \phi\).
- koeficient kontingence podle Pearsona - funguje podobně jako korelační koeficient \( C(kor)= \frac{C}{C(max)} \) Je založen na statistice chí.
- Míry asociace ordinálních veličin
Je důležité odlišit případy, kdy je ordinálního charakteru pouze jedna proměnná a kdy obě. V případech, kdy jsou obě sledované proměnné ordinálního charakteru, můžeme použít testování, založené na pořadí.
- Wilcoxonův test
- Mann-Whitney test
- Kendallův korelační koeficient \( \tau_k\) - tau k, založený na počtu konkordancí a diskordancí
- Goodman-Kruskalův koeficient \( \gamma\) je variantou kendallova \( \tau_k\)
Pokud je ordinální jen jedna, pak:
Vícerozměrné kontingenční tabulky
Namísto dvou znaků lze sledovat obecně libovolné množství znaků. Kontingenční tabulka se pak tvoří pomocí stejného principu (v každém políčku je počet výskytů kombinací určitých hodnot jednotlivých znaků), avšak není již možné ji tak snadno znázornit. Ve vícerozměrné tabulce lze testovat mnohem víc typů závislostí mezi jednotlivými znaky, testování je však technicky mnohem komplikovanější než u dvojrozměrné tabulky.
Související články
Literatura
- Přehled statistických metod - zpracování dat: Jan Hendl; Praha 2004 Portál.
- Biostatistika: Karel Zvára; Praha 2003 Karolinum.
Externí odkazy
- kontingence, stahroun.me.cz, Interstat
- http://www.excelentnitriky.com/2010/04/kontingencni-tabulky-jak-na-ne.html - Tipy a návody, jak na kontingenční tabulky v Excelu krok za krokem
- www.wall.cz, Seriál návodů na kontingenční tabulku v Excelu
- office.lasakovi.com, Seriál - Kontingenční tabulky a grafy - Excel 2010
Náklady na energie a provoz naší encyklopedie prudce vzrostly. Potřebujeme vaši podporu... Kolik ?? To je na Vás. Náš FIO účet — 2500575897 / 2010 |
---|
Informace o článku.
Článek je převzat z Wikipedie, otevřené encyklopedie, do které přispívají dobrovolníci z celého světa. |