Nominal Dicotómica | Nominal Politómica | Ordinal | Intervalar/Razón | |
---|---|---|---|---|
Nominal Dicotómica | Tetracórica | Biserial | Punto Biserial | |
Nominal Politómica | ||||
Ordinal | Biserial | Spearman, Kendall | Pearson/biserial, Policórica | |
Intervalar/Razón | Punto Biserial | Pearson/biserial, Policórica | Pearson |
Tipo | Características | Propiedad de números | Ejemplo |
---|---|---|---|
Nominal | Uso de números en lugar de palabras | Identidad | Nacionalidad |
Ordinal | Números se usan para ordenar series | + ranking | Nivel educacional |
Intervalar | Intervalos iguales entre números | + igualdad | Temperatura |
Razón | Cero real | + aditividad | Distancia |
Nominal: Números empleados como etiquetas (ej. sexo, raza)
Ordinales: Distintas categorías puede sen ordenados en serie. Posición, no distancia. (ej. cargos en una empresa)
Intervalares: Escalas de unidades iguales. Diferencia entre dos número consecuntivos refleja diferencia empírica. (ej. Horas del día)
Razón: caracterizados por la presencia de un cero absoluto. (ej. frecuencias de eventos)
Pensemos en la siguiente pregunta de investigación:
¿Existe una asociación entre la percepción de ser discriminado y el nivel educacional?
HaHa: el nivel educacional se asocia a la percepción de ser discriminado
H0H0: no hay asociación entre nivel educacional y percepción de ser discriminado
pacman::p_load(sjPlot)casen2022_chi %>% sjtab(educ_sup, discrim)
e6a. ¿Cuál es el nivel educacional al que asiste o el más alto al cual asistió? |
r9t. Últ. 12 meses: No ha sido tratado injustamente o discriminado |
Total | |
---|---|---|---|
discriminad@ | no discriminad@ | ||
Menos que universitaria |
26996 | 141998 | 168994 |
Universitaria o más | 6476 | 26761 | 33237 |
Total | 33472 | 168759 | 202231 |
χ2=247.461 · df=1 · &phi=0.035 · p=0.000 |
Con ambos porcentajes:
casen2022_chi %>% sjtab(educ_sup, discrim, show.row.prc=TRUE, show.col.prc=TRUE )
e6a. ¿Cuál es el nivel educacional al que asiste o el más alto al cual asistió? |
r9t. Últ. 12 meses: No ha sido tratado injustamente o discriminado |
Total | |
---|---|---|---|
discriminad@ | no discriminad@ | ||
Menos que universitaria |
26996 16 % 80.7 % |
141998 84 % 84.1 % |
168994 100 % 83.6 % |
Universitaria o más | 6476 19.5 % 19.3 % |
26761 80.5 % 15.9 % |
33237 100 % 16.4 % |
Total | 33472 16.6 % 100 % |
168759 83.4 % 100 % |
202231 100 % 100 % |
χ2=247.461 · df=1 · &phi=0.035 · p=0.000 |
e6a. ¿Cuál es el nivel educacional al que asiste o el más alto al cual asistió? |
r9t. Últ. 12 meses: No ha sido tratado injustamente o discriminado |
Total | |
---|---|---|---|
discriminad@ | no discriminad@ | ||
Menos que universitaria |
26996 16 % 80.7 % |
141998 84 % 84.1 % |
168994 100 % 83.6 % |
Universitaria o más | 6476 19.5 % 19.3 % |
26761 80.5 % 15.9 % |
33237 100 % 16.4 % |
Total | 33472 16.6 % 100 % |
168759 83.4 % 100 % |
202231 100 % 100 % |
χ2=247.461 · df=1 · &phi=0.035 · p=0.000 |
Para simplificar, pensemos en una muestra más pequeña de 100 casos. Pensemos que nuestra tabla (observada) es esta:
discriminad@ | no discriminad@ | Total | |
---|---|---|---|
Menos que universitaria | 30 | 20 | 50 |
Universitaria o más | 20 | 30 | 50 |
Total | 50 | 50 | 100 |
Ahora veamos como sería una tabla teórica que exprese como sería una asociación total entre las variables:
discriminad@ | no discriminad@ | Total | |
---|---|---|---|
Menos que universitaria | 50 | 0 | 50 |
Universitaria o más | 0 | 50 | 50 |
Total | 50 | 50 | 100 |
En lenguaje de test de hipótesis, la tabla teórica representa nuestra hipótesis alternativa:
En lenguaje de test de hipótesis, la tabla teórica representa nuestra hipótesis alternativa:
Pero según la lógica de falsación de hipótesis, en lugar de analizar qué tan parecida es nuestra tabla observada a la tabla teórica de asociación, se contrasta la observada con una tabla donde no hay asociación
En lenguaje de test de hipótesis, la tabla teórica representa nuestra hipótesis alternativa:
Pero según la lógica de falsación de hipótesis, en lugar de analizar qué tan parecida es nuestra tabla observada a la tabla teórica de asociación, se contrasta la observada con una tabla donde no hay asociación
(chi cuadrado)
(chi cuadrado)
El test de diferencia χ2χ2 (o simplemente chi cuadrado) consiste en contrastar nuestra tabla de contingencia observada con una tabla donde no existe asociación entre variables (frecuencia esperada al azar), que representa la hipótesis nula H0H0
La clave de esta prueba es el contraste tabla observada / tabla esperada al azar. Entonces:
discriminad@ | no discriminad@ | Total | |
---|---|---|---|
Menos que universitaria | a | b | (a+b) |
Universitaria o más | c | d | (c+d) |
Total | (a+c) | (b+d) | N |
ej: celda a, su frecuencia esperada es:
En base a los datos de nuestro ejemplo de 100 casos:
discriminad@ | no discriminad@ | Total | |
---|---|---|---|
Menos que universitaria | 30 (a) | 20 (b) | 50 |
Universitaria o más | 20 (c) | 30 (d) | 50 |
Total | 50 | 50 | 100 |
Por lo tanto, la frecuencia esperada al azar para la celda a=25
Del ejemplo se podría deducir que la frecuencia esperada es simplemente el total de casos dividido por el número de celdas: 100/4=25.
Esto ocurre en el ejemplo porque es una tabla uniforme: los totales de las filas y columnas son los mismos, por lo tanto la frecuencia esperada para cada celda es la misma
¿Qué pasa en una tabla no uniforme?
discriminad@ | no discriminad@ | Total | |
---|---|---|---|
Menos que universitaria | 40 (a) | 20 (b) | 60 |
Universitaria o más | 15 (c) | 25 (d) | 40 |
Total | 55 | 45 | 100 |
En este caso, las frecuencias esperadas serán distintas para cada celda, ej:
(a)=fea=(a+b)(a+c)N=60∗55100=3300100=33(a)=fea=(a+b)(a+c)N=60∗55100=3300100=33 (b)=feb=(a+b)(a+c)N=60∗45100=2700100=27(b)=feb=(a+b)(a+c)N=60∗45100=2700100=27
Generación de tabla de contingencia en base a nuestros datos -> tabla de frecuencias observadas
Generación de tabla de contingencia esperada al azar en base a la tabla observada
Generación de tabla de contingencia en base a nuestros datos -> tabla de frecuencias observadas
Generación de tabla de contingencia esperada al azar en base a la tabla observada
Establecer la diferencia entre lo observado y lo esperado al azar
Generación de tabla de contingencia en base a nuestros datos -> tabla de frecuencias observadas
Generación de tabla de contingencia esperada al azar en base a la tabla observada
Establecer la diferencia entre lo observado y lo esperado al azar
Establecer si esta diferencia es estadísticamente significativa
La lógica de la prueba de Chi 2 es la comparación de las frecuencias observadas (fo)(fo) en nuestra tabla y de las frecuencias esperadas (fe)(fe) por azar
Si nuestra tabla (fo)(fo) se diferencia significativamente del azar (fe)(fe), entonces podemos rechazar la hipótesis nula y tenemos evidencia de asociación entre variables
fea=(a+b)(a+c)Nfea=(a+b)(a+c)N feb=(a+b)(b+d)Nfeb=(a+b)(b+d)N fec=(a+c)(c+d)Nfec=(a+c)(c+d)N fed=(b+d)(c+d)Nfed=(b+d)(c+d)N
discriminad@ | no discriminad@ | Total | |
---|---|---|---|
Menos que universitaria | a | b | (a+b) |
Universitaria o más | c | d | (c+d) |
Total | (a+c) | (b+d) | N |
El valor de Chi2 será mayor en la medida que lo observado sea distinto de los esperado al azar
Cálculo de frecuencias esperadas para ejemplo con CASEN
e6a. ¿Cuál es el nivel educacional al que asiste o el más alto al cual asistió? |
r9t. Últ. 12 meses: No ha sido tratado injustamente o discriminado |
Total | |
---|---|---|---|
discriminad@ | no discriminad@ | ||
Menos que universitaria |
26996 | 141998 | 168994 |
Universitaria o más | 6476 | 26761 | 33237 |
Total | 33472 | 168759 | 202231 |
χ2=247.461 · df=1 · &phi=0.035 · p=0.000 |
fea=168994∗33472202231=27970.8fea=168994∗33472202231=27970.8 feb=168994∗168759202231=141023.2feb=168994∗168759202231=141023.2 fec=33472∗33237202231=5501.2fec=33472∗33237202231=5501.2 fed=168759∗33237202231=27735.8fed=168759∗33237202231=27735.8
En R también es posible obtener las frecuencias esperadas por celda con la función CrossTable
de la librería gmodels
gmodels::CrossTable(casen2022_chi$educ_sup, casen2022_chi$discrim, expected=TRUE, prop.r = FALSE, prop.c=FALSE, prop.chisq = FALSE, prop.t = FALSE)
## ## ## Cell Contents## |-------------------------|## | N |## | Expected N |## |-------------------------|## ## ## Total Observations in Table: 202231 ## ## ## | casen2022_chi$discrim ## casen2022_chi$educ_sup | 0 | 1 | Row Total | ## -----------------------|-----------|-----------|-----------|## 0 | 26996 | 141998 | 168994 | ## | 27970.821 | 141023.179 | | ## -----------------------|-----------|-----------|-----------|## 1 | 6476 | 26761 | 33237 | ## | 5501.179 | 27735.821 | | ## -----------------------|-----------|-----------|-----------|## Column Total | 33472 | 168759 | 202231 | ## -----------------------|-----------|-----------|-----------|## ## ## Statistics for All Table Factors## ## ## Pearson's Chi-squared test ## ------------------------------------------------------------## Chi^2 = 247.7146 d.f. = 1 p = 8.178928e-56 ## ## Pearson's Chi-squared test with Yates' continuity correction ## ------------------------------------------------------------## Chi^2 = 247.4605 d.f. = 1 p = 9.291443e-56 ## ##
χ2=∑(fo−fe)2fe=(26996−27970.8)227970.8+(141998−141023.2)2141023.2+(6476−5501.2)25501.2+(26761−27735.8)227735.8=(974.8)227970.8+(974,8)2141023.2+(−974.8)25501.2+(−974.8)227735.8=950235,0427970.8+950235,04141023.2+950235,045501.2+950235,0427735.8=33.97+6.74+172.7+34.3
Tal como en los pasos de la inferencia para pruebas anteriores (como Z y t), para realizar la prueba de hipótesis comparamos el valor observado de χ2 con un valor crítico, que proviene de la distribución χ2
además de especificar la probabilidad de error α, se requiere especificar los grados de libertad
Como en la distribución t, χ2 también se ajusta por los grados de libertad, que se obtienen sumando el numero de niveles/categorías -1 de cada variable
En nuestro ejemplo de tabla de 2x2 (dos categorías de cada variable), los grados de libertad equivalen a:
gl=(2−1)∗(2−1)=1∗1=1
χ2 estimado: 247.46
χ2 crítico para un α=0.05 y 1 grado de libertad: 3.84
En el ejemplo: valor estimado χ2 > valor crítico χ2
Por lo tanto se rechaza H0, podemos decir que hay evidencia de asociación entre percepción de discriminación y nivel educacional con un 95% de confianza
La función es chisq.test()
chisq.test(table(casen2022_chi$educ_sup, casen2022_chi$discrim))
## ## Pearson's Chi-squared test with Yates' continuity correction## ## data: table(casen2022_chi$educ_sup, casen2022_chi$discrim)## X-squared = 247.46, df = 1, p-value < 2.2e-16
De todas maneras, aparece directamente en varios outputs de tablas de contingencia en R, como la generada antes con sjtab
, de librería sjPlot
:
casen2022_chi %>% sjtab(educ_sup, discrim, show.row.prc=TRUE)
e6a. ¿Cuál es el nivel educacional al que asiste o el más alto al cual asistió? |
r9t. Últ. 12 meses: No ha sido tratado injustamente o discriminado |
Total | |
---|---|---|---|
discriminad@ | no discriminad@ | ||
Menos que universitaria |
26996 16 % |
141998 84 % |
168994 100 % |
Universitaria o más | 6476 19.5 % |
26761 80.5 % |
33237 100 % |
Total | 33472 16.6 % |
168759 83.4 % |
202231 100 % |
χ2=247.461 · df=1 · &phi=0.035 · p=0.000 |
Establecer las hipótesis
Calcular frecuencias esperadas
Estimar estadístico de prueba χ2
Establecer valor crítico de la prueba (de acuerdo a un cierto nivel de confianza y grados de libertad)
Contraste e interpretación
El Coeficiente Phi (φ) es una medida de asociación entre dos variables binarias.
Es similar al coeficiente de correlación de Pearson pero específico para una tabla de contingencia de 2x2.
Se interpreta de la misma manera que Pearson en términos de sentido (positivo/negativo) y fuerza (cercanía a 1 / -1)
discriminad@ | no discriminad@ | Total | |
---|---|---|---|
Menos que universitaria | 30 (a) | 20 (b) | 50 |
Universitaria o más | 20 (c) | 30 (d) | 50 |
Total | 50 | 50 | 100 |
ϕ=ad−bc√(a+b)(c+d)(a+c)(b+d)=(30×30)−(20×20)√(30+20)(20+30)(30+20)(20+30)=900−400√6250000=5002500=0.2
tabla <- matrix(c(30, 20, 20, 30), nrow = 2, byrow = TRUE)print(tabla)
## [,1] [,2]## [1,] 30 20## [2,] 20 30
coef_phi <-psych::phi(tabla)print(coef_phi)
## [1] 0.2
El valor de 0.2 indica una asociación baja entre ambas variables de la tabla de contingencia
Es una medida general de asociación para tablas que pueden ir más allá de 2x2:
Donde:
Grupo | Categoría 1 | Categoría 2 |
---|---|---|
A | 30 | 20 |
B | 10 | 40 |
C | 50 | 30 |
V=√5.35180∗(2−1)=√5.35180=0.173
Por lo tanto, existe una asociación débil entre las variables
Nominal Dicotómica | Nominal Politómica | Ordinal | Intervalar/Razón | |
---|---|---|---|---|
Nominal Dicotómica | Tetracórica / Chi2 | |||
Nominal Politómica | Chi2 | Chi2 | ||
Ordinal | Biserial | Chi2 | Spearman, Kendall | |
Intervalar/Razón | Punto Biserial / Prueba t | (ANOVA) | Pearson/biserial, Policórica | Pearson |
Nominal Dicotómica | Nominal Politómica | Ordinal | Intervalar/Razón | |
---|---|---|---|---|
Nominal Dicotómica | Tetracórica | Biserial | Punto Biserial | |
Nominal Politómica | ||||
Ordinal | Biserial | Spearman, Kendall | Pearson/biserial, Policórica | |
Intervalar/Razón | Punto Biserial | Pearson/biserial, Policórica | Pearson |
Keyboard shortcuts
↑, ←, Pg Up, k | Go to previous slide |
↓, →, Pg Dn, Space, j | Go to next slide |
Home | Go to first slide |
End | Go to last slide |
Number + Return | Go to specific slide |
b / m / f | Toggle blackout / mirrored / fullscreen mode |
c | Clone slideshow |
p | Toggle presenter mode |
t | Restart the presentation timer |
?, h | Toggle this help |
s | Toggle scribble toolbox |
o | Tile View: Overview of Slides |
Esc | Back to slideshow |
Nominal Dicotómica | Nominal Politómica | Ordinal | Intervalar/Razón | |
---|---|---|---|---|
Nominal Dicotómica | Tetracórica | Biserial | Punto Biserial | |
Nominal Politómica | ||||
Ordinal | Biserial | Spearman, Kendall | Pearson/biserial, Policórica | |
Intervalar/Razón | Punto Biserial | Pearson/biserial, Policórica | Pearson |
Tipo | Características | Propiedad de números | Ejemplo |
---|---|---|---|
Nominal | Uso de números en lugar de palabras | Identidad | Nacionalidad |
Ordinal | Números se usan para ordenar series | + ranking | Nivel educacional |
Intervalar | Intervalos iguales entre números | + igualdad | Temperatura |
Razón | Cero real | + aditividad | Distancia |
Nominal: Números empleados como etiquetas (ej. sexo, raza)
Ordinales: Distintas categorías puede sen ordenados en serie. Posición, no distancia. (ej. cargos en una empresa)
Intervalares: Escalas de unidades iguales. Diferencia entre dos número consecuntivos refleja diferencia empírica. (ej. Horas del día)
Razón: caracterizados por la presencia de un cero absoluto. (ej. frecuencias de eventos)
Pensemos en la siguiente pregunta de investigación:
¿Existe una asociación entre la percepción de ser discriminado y el nivel educacional?
Ha: el nivel educacional se asocia a la percepción de ser discriminado
H0: no hay asociación entre nivel educacional y percepción de ser discriminado
pacman::p_load(sjPlot)casen2022_chi %>% sjtab(educ_sup, discrim)
e6a. ¿Cuál es el nivel educacional al que asiste o el más alto al cual asistió? |
r9t. Últ. 12 meses: No ha sido tratado injustamente o discriminado |
Total | |
---|---|---|---|
discriminad@ | no discriminad@ | ||
Menos que universitaria |
26996 | 141998 | 168994 |
Universitaria o más | 6476 | 26761 | 33237 |
Total | 33472 | 168759 | 202231 |
χ2=247.461 · df=1 · &phi=0.035 · p=0.000 |
Con ambos porcentajes:
casen2022_chi %>% sjtab(educ_sup, discrim, show.row.prc=TRUE, show.col.prc=TRUE )
e6a. ¿Cuál es el nivel educacional al que asiste o el más alto al cual asistió? |
r9t. Últ. 12 meses: No ha sido tratado injustamente o discriminado |
Total | |
---|---|---|---|
discriminad@ | no discriminad@ | ||
Menos que universitaria |
26996 16 % 80.7 % |
141998 84 % 84.1 % |
168994 100 % 83.6 % |
Universitaria o más | 6476 19.5 % 19.3 % |
26761 80.5 % 15.9 % |
33237 100 % 16.4 % |
Total | 33472 16.6 % 100 % |
168759 83.4 % 100 % |
202231 100 % 100 % |
χ2=247.461 · df=1 · &phi=0.035 · p=0.000 |
e6a. ¿Cuál es el nivel educacional al que asiste o el más alto al cual asistió? |
r9t. Últ. 12 meses: No ha sido tratado injustamente o discriminado |
Total | |
---|---|---|---|
discriminad@ | no discriminad@ | ||
Menos que universitaria |
26996 16 % 80.7 % |
141998 84 % 84.1 % |
168994 100 % 83.6 % |
Universitaria o más | 6476 19.5 % 19.3 % |
26761 80.5 % 15.9 % |
33237 100 % 16.4 % |
Total | 33472 16.6 % 100 % |
168759 83.4 % 100 % |
202231 100 % 100 % |
χ2=247.461 · df=1 · &phi=0.035 · p=0.000 |
Para simplificar, pensemos en una muestra más pequeña de 100 casos. Pensemos que nuestra tabla (observada) es esta:
discriminad@ | no discriminad@ | Total | |
---|---|---|---|
Menos que universitaria | 30 | 20 | 50 |
Universitaria o más | 20 | 30 | 50 |
Total | 50 | 50 | 100 |
Ahora veamos como sería una tabla teórica que exprese como sería una asociación total entre las variables:
discriminad@ | no discriminad@ | Total | |
---|---|---|---|
Menos que universitaria | 50 | 0 | 50 |
Universitaria o más | 0 | 50 | 50 |
Total | 50 | 50 | 100 |
En lenguaje de test de hipótesis, la tabla teórica representa nuestra hipótesis alternativa:
En lenguaje de test de hipótesis, la tabla teórica representa nuestra hipótesis alternativa:
Pero según la lógica de falsación de hipótesis, en lugar de analizar qué tan parecida es nuestra tabla observada a la tabla teórica de asociación, se contrasta la observada con una tabla donde no hay asociación
En lenguaje de test de hipótesis, la tabla teórica representa nuestra hipótesis alternativa:
Pero según la lógica de falsación de hipótesis, en lugar de analizar qué tan parecida es nuestra tabla observada a la tabla teórica de asociación, se contrasta la observada con una tabla donde no hay asociación
(chi cuadrado)
(chi cuadrado)
El test de diferencia χ2 (o simplemente chi cuadrado) consiste en contrastar nuestra tabla de contingencia observada con una tabla donde no existe asociación entre variables (frecuencia esperada al azar), que representa la hipótesis nula H0
La clave de esta prueba es el contraste tabla observada / tabla esperada al azar. Entonces:
discriminad@ | no discriminad@ | Total | |
---|---|---|---|
Menos que universitaria | a | b | (a+b) |
Universitaria o más | c | d | (c+d) |
Total | (a+c) | (b+d) | N |
ej: celda a, su frecuencia esperada es:
En base a los datos de nuestro ejemplo de 100 casos:
discriminad@ | no discriminad@ | Total | |
---|---|---|---|
Menos que universitaria | 30 (a) | 20 (b) | 50 |
Universitaria o más | 20 (c) | 30 (d) | 50 |
Total | 50 | 50 | 100 |
Por lo tanto, la frecuencia esperada al azar para la celda a=25
Del ejemplo se podría deducir que la frecuencia esperada es simplemente el total de casos dividido por el número de celdas: 100/4=25.
Esto ocurre en el ejemplo porque es una tabla uniforme: los totales de las filas y columnas son los mismos, por lo tanto la frecuencia esperada para cada celda es la misma
¿Qué pasa en una tabla no uniforme?
discriminad@ | no discriminad@ | Total | |
---|---|---|---|
Menos que universitaria | 40 (a) | 20 (b) | 60 |
Universitaria o más | 15 (c) | 25 (d) | 40 |
Total | 55 | 45 | 100 |
En este caso, las frecuencias esperadas serán distintas para cada celda, ej:
(a)=fea=(a+b)(a+c)N=60∗55100=3300100=33 (b)=feb=(a+b)(a+c)N=60∗45100=2700100=27
Generación de tabla de contingencia en base a nuestros datos -> tabla de frecuencias observadas
Generación de tabla de contingencia esperada al azar en base a la tabla observada
Generación de tabla de contingencia en base a nuestros datos -> tabla de frecuencias observadas
Generación de tabla de contingencia esperada al azar en base a la tabla observada
Establecer la diferencia entre lo observado y lo esperado al azar
Generación de tabla de contingencia en base a nuestros datos -> tabla de frecuencias observadas
Generación de tabla de contingencia esperada al azar en base a la tabla observada
Establecer la diferencia entre lo observado y lo esperado al azar
Establecer si esta diferencia es estadísticamente significativa
La lógica de la prueba de Chi 2 es la comparación de las frecuencias observadas (fo) en nuestra tabla y de las frecuencias esperadas (fe) por azar
Si nuestra tabla (fo) se diferencia significativamente del azar (fe), entonces podemos rechazar la hipótesis nula y tenemos evidencia de asociación entre variables
fea=(a+b)(a+c)N feb=(a+b)(b+d)N fec=(a+c)(c+d)N fed=(b+d)(c+d)N
discriminad@ | no discriminad@ | Total | |
---|---|---|---|
Menos que universitaria | a | b | (a+b) |
Universitaria o más | c | d | (c+d) |
Total | (a+c) | (b+d) | N |
El valor de Chi2 será mayor en la medida que lo observado sea distinto de los esperado al azar
Cálculo de frecuencias esperadas para ejemplo con CASEN
e6a. ¿Cuál es el nivel educacional al que asiste o el más alto al cual asistió? |
r9t. Últ. 12 meses: No ha sido tratado injustamente o discriminado |
Total | |
---|---|---|---|
discriminad@ | no discriminad@ | ||
Menos que universitaria |
26996 | 141998 | 168994 |
Universitaria o más | 6476 | 26761 | 33237 |
Total | 33472 | 168759 | 202231 |
χ2=247.461 · df=1 · &phi=0.035 · p=0.000 |
fea=168994∗33472202231=27970.8 feb=168994∗168759202231=141023.2 fec=33472∗33237202231=5501.2 fed=168759∗33237202231=27735.8
En R también es posible obtener las frecuencias esperadas por celda con la función CrossTable
de la librería gmodels
gmodels::CrossTable(casen2022_chi$educ_sup, casen2022_chi$discrim, expected=TRUE, prop.r = FALSE, prop.c=FALSE, prop.chisq = FALSE, prop.t = FALSE)
## ## ## Cell Contents## |-------------------------|## | N |## | Expected N |## |-------------------------|## ## ## Total Observations in Table: 202231 ## ## ## | casen2022_chi$discrim ## casen2022_chi$educ_sup | 0 | 1 | Row Total | ## -----------------------|-----------|-----------|-----------|## 0 | 26996 | 141998 | 168994 | ## | 27970.821 | 141023.179 | | ## -----------------------|-----------|-----------|-----------|## 1 | 6476 | 26761 | 33237 | ## | 5501.179 | 27735.821 | | ## -----------------------|-----------|-----------|-----------|## Column Total | 33472 | 168759 | 202231 | ## -----------------------|-----------|-----------|-----------|## ## ## Statistics for All Table Factors## ## ## Pearson's Chi-squared test ## ------------------------------------------------------------## Chi^2 = 247.7146 d.f. = 1 p = 8.178928e-56 ## ## Pearson's Chi-squared test with Yates' continuity correction ## ------------------------------------------------------------## Chi^2 = 247.4605 d.f. = 1 p = 9.291443e-56 ## ##
χ2=∑(fo−fe)2fe=(26996−27970.8)227970.8+(141998−141023.2)2141023.2+(6476−5501.2)25501.2+(26761−27735.8)227735.8=(974.8)227970.8+(974,8)2141023.2+(−974.8)25501.2+(−974.8)227735.8=950235,0427970.8+950235,04141023.2+950235,045501.2+950235,0427735.8=33.97+6.74+172.7+34.3
Tal como en los pasos de la inferencia para pruebas anteriores (como Z y t), para realizar la prueba de hipótesis comparamos el valor observado de χ2 con un valor crítico, que proviene de la distribución χ2
además de especificar la probabilidad de error α, se requiere especificar los grados de libertad
Como en la distribución t, χ2 también se ajusta por los grados de libertad, que se obtienen sumando el numero de niveles/categorías -1 de cada variable
En nuestro ejemplo de tabla de 2x2 (dos categorías de cada variable), los grados de libertad equivalen a:
gl=(2−1)∗(2−1)=1∗1=1
χ2 estimado: 247.46
χ2 crítico para un α=0.05 y 1 grado de libertad: 3.84
En el ejemplo: valor estimado χ2 > valor crítico χ2
Por lo tanto se rechaza H0, podemos decir que hay evidencia de asociación entre percepción de discriminación y nivel educacional con un 95% de confianza
La función es chisq.test()
chisq.test(table(casen2022_chi$educ_sup, casen2022_chi$discrim))
## ## Pearson's Chi-squared test with Yates' continuity correction## ## data: table(casen2022_chi$educ_sup, casen2022_chi$discrim)## X-squared = 247.46, df = 1, p-value < 2.2e-16
De todas maneras, aparece directamente en varios outputs de tablas de contingencia en R, como la generada antes con sjtab
, de librería sjPlot
:
casen2022_chi %>% sjtab(educ_sup, discrim, show.row.prc=TRUE)
e6a. ¿Cuál es el nivel educacional al que asiste o el más alto al cual asistió? |
r9t. Últ. 12 meses: No ha sido tratado injustamente o discriminado |
Total | |
---|---|---|---|
discriminad@ | no discriminad@ | ||
Menos que universitaria |
26996 16 % |
141998 84 % |
168994 100 % |
Universitaria o más | 6476 19.5 % |
26761 80.5 % |
33237 100 % |
Total | 33472 16.6 % |
168759 83.4 % |
202231 100 % |
χ2=247.461 · df=1 · &phi=0.035 · p=0.000 |
Establecer las hipótesis
Calcular frecuencias esperadas
Estimar estadístico de prueba χ2
Establecer valor crítico de la prueba (de acuerdo a un cierto nivel de confianza y grados de libertad)
Contraste e interpretación
El Coeficiente Phi (φ) es una medida de asociación entre dos variables binarias.
Es similar al coeficiente de correlación de Pearson pero específico para una tabla de contingencia de 2x2.
Se interpreta de la misma manera que Pearson en términos de sentido (positivo/negativo) y fuerza (cercanía a 1 / -1)
discriminad@ | no discriminad@ | Total | |
---|---|---|---|
Menos que universitaria | 30 (a) | 20 (b) | 50 |
Universitaria o más | 20 (c) | 30 (d) | 50 |
Total | 50 | 50 | 100 |
ϕ=ad−bc√(a+b)(c+d)(a+c)(b+d)=(30×30)−(20×20)√(30+20)(20+30)(30+20)(20+30)=900−400√6250000=5002500=0.2
tabla <- matrix(c(30, 20, 20, 30), nrow = 2, byrow = TRUE)print(tabla)
## [,1] [,2]## [1,] 30 20## [2,] 20 30
coef_phi <-psych::phi(tabla)print(coef_phi)
## [1] 0.2
El valor de 0.2 indica una asociación baja entre ambas variables de la tabla de contingencia
Es una medida general de asociación para tablas que pueden ir más allá de 2x2:
Donde:
Grupo | Categoría 1 | Categoría 2 |
---|---|---|
A | 30 | 20 |
B | 10 | 40 |
C | 50 | 30 |
V=√5.35180∗(2−1)=√5.35180=0.173
Por lo tanto, existe una asociación débil entre las variables
Nominal Dicotómica | Nominal Politómica | Ordinal | Intervalar/Razón | |
---|---|---|---|---|
Nominal Dicotómica | Tetracórica / Chi2 | |||
Nominal Politómica | Chi2 | Chi2 | ||
Ordinal | Biserial | Chi2 | Spearman, Kendall | |
Intervalar/Razón | Punto Biserial / Prueba t | (ANOVA) | Pearson/biserial, Policórica | Pearson |