+ - 0:00:00
Notes for current slide
Notes for next slide

Estadística Correlacional

Inferencia, asociación y reporte


Juan Carlos Castillo

Sociología FACSO - UChile

2do Sem 2024

correlacional.netlify.app

Sesión 12:

Asociación con variables categóricas 2

1 / 44

Tipos de correlación según nivel de medición


Nominal Dicotómica Nominal Politómica Ordinal Intervalar/Razón
Nominal Dicotómica Tetracórica Biserial Punto Biserial
Nominal Politómica
Ordinal Biserial Spearman, Kendall Pearson/biserial, Policórica
Intervalar/Razón Punto Biserial Pearson/biserial, Policórica Pearson
2 / 44

Asociación en tablas de contingencia

3 / 44

Escalas de medición de variables

  • NOIR: Nominal, Ordinal, Intervalar, Razón
Tipo Características Propiedad de números Ejemplo
Nominal Uso de números en lugar de palabras Identidad Nacionalidad
Ordinal Números se usan para ordenar series + ranking Nivel educacional
Intervalar Intervalos iguales entre números + igualdad Temperatura
Razón Cero real + aditividad Distancia
4 / 44
  • Nominal: Números empleados como etiquetas (ej. sexo, raza)

    • Ordinales: Distintas categorías puede sen ordenados en serie. Posición, no distancia. (ej. cargos en una empresa)

    • Intervalares: Escalas de unidades iguales. Diferencia entre dos número consecuntivos refleja diferencia empírica. (ej. Horas del día)

    • Razón: caracterizados por la presencia de un cero absoluto. (ej. frecuencias de eventos)

Tablas de contingencia y asociación


¿Cómo establecer una medida de asociación de los datos en una tabla de contingencia?

¿Cómo saber si esa asociación es estadísticamente significativa?

5 / 44

Ejemplo (Datos CASEN 2022)

Pensemos en la siguiente pregunta de investigación:

¿Existe una asociación entre la percepción de ser discriminado y el nivel educacional?

HaHa: el nivel educacional se asocia a la percepción de ser discriminado

H0H0: no hay asociación entre nivel educacional y percepción de ser discriminado

6 / 44

Tabla de frecuencias cruzadas

pacman::p_load(sjPlot)
casen2022_chi %>%
sjtab(educ_sup,
discrim)
e6a. ¿Cuál es el
nivel educacional al
que asiste o el más
alto al cual
asistió?
r9t. Últ. 12 meses:
No ha sido tratado
injustamente o
discriminado
Total
discriminad@ no discriminad@
Menos que
universitaria
26996 141998 168994
Universitaria o más 6476 26761 33237
Total 33472 168759 202231
χ2=247.461 · df=1 · &phi=0.035 · p=0.000
7 / 44

Con ambos porcentajes:

casen2022_chi %>%
sjtab(educ_sup,
discrim,
show.row.prc=TRUE,
show.col.prc=TRUE
)
e6a. ¿Cuál es el
nivel educacional al
que asiste o el más
alto al cual
asistió?
r9t. Últ. 12 meses:
No ha sido tratado
injustamente o
discriminado
Total
discriminad@ no discriminad@
Menos que
universitaria
26996
16 %
80.7 %
141998
84 %
84.1 %
168994
100 %
83.6 %
Universitaria o más 6476
19.5 %
19.3 %
26761
80.5 %
15.9 %
33237
100 %
16.4 %
Total 33472
16.6 %
100 %
168759
83.4 %
100 %
202231
100 %
100 %
χ2=247.461 · df=1 · &phi=0.035 · p=0.000
8 / 44
e6a. ¿Cuál es el
nivel educacional al
que asiste o el más
alto al cual
asistió?
r9t. Últ. 12 meses:
No ha sido tratado
injustamente o
discriminado
Total
discriminad@ no discriminad@
Menos que
universitaria
26996
16 %
80.7 %
141998
84 %
84.1 %
168994
100 %
83.6 %
Universitaria o más 6476
19.5 %
19.3 %
26761
80.5 %
15.9 %
33237
100 %
16.4 %
Total 33472
16.6 %
100 %
168759
83.4 %
100 %
202231
100 %
100 %
χ2=247.461 · df=1 · &phi=0.035 · p=0.000


¿Cómo saber si existe asociación o no entre estas variables?

9 / 44

Para simplificar, pensemos en una muestra más pequeña de 100 casos. Pensemos que nuestra tabla (observada) es esta:

discriminad@ no discriminad@ Total
Menos que universitaria 30 20 50
Universitaria o más 20 30 50
Total 50 50 100

Ahora veamos como sería una tabla teórica que exprese como sería una asociación total entre las variables:

discriminad@ no discriminad@ Total
Menos que universitaria 50 0 50
Universitaria o más 0 50 50
Total 50 50 100
10 / 44

En lenguaje de test de hipótesis, la tabla teórica representa nuestra hipótesis alternativa:

  • -> existe asociación entre percepción de discriminación y nivel educacional
11 / 44

En lenguaje de test de hipótesis, la tabla teórica representa nuestra hipótesis alternativa:

  • -> existe asociación entre percepción de discriminación y nivel educacional

    Pero según la lógica de falsación de hipótesis, en lugar de analizar qué tan parecida es nuestra tabla observada a la tabla teórica de asociación, se contrasta la observada con una tabla donde no hay asociación

11 / 44

En lenguaje de test de hipótesis, la tabla teórica representa nuestra hipótesis alternativa:

  • -> existe asociación entre percepción de discriminación y nivel educacional

    Pero según la lógica de falsación de hipótesis, en lugar de analizar qué tan parecida es nuestra tabla observada a la tabla teórica de asociación, se contrasta la observada con una tabla donde no hay asociación

    La tabla de no-asociación es la tabla de frecuencias esperadas al azar
11 / 44

Una forma de generar evidencia de asociación bivariada en una tabla de contingencia es establecer si es distinta a una tabla sin asociación (frecuencia esperada al azar)

-> test de diferencia

12 / 44


¿Cómo sería una tabla sin asociación?

13 / 44

14 / 44

χ2χ2

(chi cuadrado)

15 / 44

χ2χ2

(chi cuadrado)

El test de diferencia χ2χ2 (o simplemente chi cuadrado) consiste en contrastar nuestra tabla de contingencia observada con una tabla donde no existe asociación entre variables (frecuencia esperada al azar), que representa la hipótesis nula H0H0

15 / 44

La clave de esta prueba es el contraste tabla observada / tabla esperada al azar. Entonces:

¿Cómo obtener una tabla de frecuencias esperadas al azar?

16 / 44

Frecuencia esperada al azar en una tabla de contingencia


discriminad@ no discriminad@ Total
Menos que universitaria a b (a+b)
Universitaria o más c d (c+d)
Total (a+c) (b+d) N

ej: celda a, su frecuencia esperada es:

fea=(a+b)(a+c)Nfea=(a+b)(a+c)N

17 / 44

En base a los datos de nuestro ejemplo de 100 casos:

discriminad@ no discriminad@ Total
Menos que universitaria 30 (a) 20 (b) 50
Universitaria o más 20 (c) 30 (d) 50
Total 50 50 100
fea=(a+b)(a+c)Nfea=(a+b)(a+c)N fea=(50)(50)100=2500100=25fea=(50)(50)100=2500100=25

Por lo tanto, la frecuencia esperada al azar para la celda a=25

18 / 44
  • Del ejemplo se podría deducir que la frecuencia esperada es simplemente el total de casos dividido por el número de celdas: 100/4=25.

  • Esto ocurre en el ejemplo porque es una tabla uniforme: los totales de las filas y columnas son los mismos, por lo tanto la frecuencia esperada para cada celda es la misma

  • ¿Qué pasa en una tabla no uniforme?

19 / 44

20 / 44
discriminad@ no discriminad@ Total
Menos que universitaria 40 (a) 20 (b) 60
Universitaria o más 15 (c) 25 (d) 40
Total 55 45 100

En este caso, las frecuencias esperadas serán distintas para cada celda, ej:

(a)=fea=(a+b)(a+c)N=6055100=3300100=33(a)=fea=(a+b)(a+c)N=6055100=3300100=33 (b)=feb=(a+b)(a+c)N=6045100=2700100=27(b)=feb=(a+b)(a+c)N=6045100=2700100=27

21 / 44

Pasos en el cálculo de χ2χ2

  • Generación de tabla de contingencia en base a nuestros datos -> tabla de frecuencias observadas
22 / 44

Pasos en el cálculo de χ2χ2

  • Generación de tabla de contingencia en base a nuestros datos -> tabla de frecuencias observadas

  • Generación de tabla de contingencia esperada al azar en base a la tabla observada

22 / 44

Pasos en el cálculo de χ2χ2

  • Generación de tabla de contingencia en base a nuestros datos -> tabla de frecuencias observadas

  • Generación de tabla de contingencia esperada al azar en base a la tabla observada

  • Establecer la diferencia entre lo observado y lo esperado al azar

22 / 44

Pasos en el cálculo de χ2χ2

  • Generación de tabla de contingencia en base a nuestros datos -> tabla de frecuencias observadas

  • Generación de tabla de contingencia esperada al azar en base a la tabla observada

  • Establecer la diferencia entre lo observado y lo esperado al azar

  • Establecer si esta diferencia es estadísticamente significativa

22 / 44

Sentido general de la prueba de χ2χ2

La lógica de la prueba de Chi 2 es la comparación de las frecuencias observadas (fo)(fo) en nuestra tabla y de las frecuencias esperadas (fe)(fe) por azar


Si nuestra tabla (fo)(fo) se diferencia significativamente del azar (fe)(fe), entonces podemos rechazar la hipótesis nula y tenemos evidencia de asociación entre variables

23 / 44

fea=(a+b)(a+c)Nfea=(a+b)(a+c)N feb=(a+b)(b+d)Nfeb=(a+b)(b+d)N fec=(a+c)(c+d)Nfec=(a+c)(c+d)N fed=(b+d)(c+d)Nfed=(b+d)(c+d)N

discriminad@ no discriminad@ Total
Menos que universitaria a b (a+b)
Universitaria o más c d (c+d)
Total (a+c) (b+d) N

χ2=(fofe)2feχ2=(fofe)2fe

El valor de Chi2 será mayor en la medida que lo observado sea distinto de los esperado al azar

24 / 44

Cálculo de frecuencias esperadas para ejemplo con CASEN

e6a. ¿Cuál es el
nivel educacional al
que asiste o el más
alto al cual
asistió?
r9t. Últ. 12 meses:
No ha sido tratado
injustamente o
discriminado
Total
discriminad@ no discriminad@
Menos que
universitaria
26996 141998 168994
Universitaria o más 6476 26761 33237
Total 33472 168759 202231
χ2=247.461 · df=1 · &phi=0.035 · p=0.000

fea=16899433472202231=27970.8fea=16899433472202231=27970.8 feb=168994168759202231=141023.2feb=168994168759202231=141023.2 fec=3347233237202231=5501.2fec=3347233237202231=5501.2 fed=16875933237202231=27735.8fed=16875933237202231=27735.8

25 / 44

En R también es posible obtener las frecuencias esperadas por celda con la función CrossTable de la librería gmodels

gmodels::CrossTable(casen2022_chi$educ_sup,
casen2022_chi$discrim,
expected=TRUE,
prop.r = FALSE,
prop.c=FALSE,
prop.chisq = FALSE,
prop.t = FALSE)
26 / 44
##
##
## Cell Contents
## |-------------------------|
## | N |
## | Expected N |
## |-------------------------|
##
##
## Total Observations in Table: 202231
##
##
## | casen2022_chi$discrim
## casen2022_chi$educ_sup | 0 | 1 | Row Total |
## -----------------------|-----------|-----------|-----------|
## 0 | 26996 | 141998 | 168994 |
## | 27970.821 | 141023.179 | |
## -----------------------|-----------|-----------|-----------|
## 1 | 6476 | 26761 | 33237 |
## | 5501.179 | 27735.821 | |
## -----------------------|-----------|-----------|-----------|
## Column Total | 33472 | 168759 | 202231 |
## -----------------------|-----------|-----------|-----------|
##
##
## Statistics for All Table Factors
##
##
## Pearson's Chi-squared test
## ------------------------------------------------------------
## Chi^2 = 247.7146 d.f. = 1 p = 8.178928e-56
##
## Pearson's Chi-squared test with Yates' continuity correction
## ------------------------------------------------------------
## Chi^2 = 247.4605 d.f. = 1 p = 9.291443e-56
##
##
27 / 44

χ2=(fofe)2fe=(2699627970.8)227970.8+(141998141023.2)2141023.2+(64765501.2)25501.2+(2676127735.8)227735.8=(974.8)227970.8+(974,8)2141023.2+(974.8)25501.2+(974.8)227735.8=950235,0427970.8+950235,04141023.2+950235,045501.2+950235,0427735.8=33.97+6.74+172.7+34.3

χ2=247.46

28 / 44

Inferencia y χ2

  • Tal como en los pasos de la inferencia para pruebas anteriores (como Z y t), para realizar la prueba de hipótesis comparamos el valor observado de χ2 con un valor crítico, que proviene de la distribución χ2

  • además de especificar la probabilidad de error α, se requiere especificar los grados de libertad

29 / 44

Grados de libertad en χ2

  • Como en la distribución t, χ2 también se ajusta por los grados de libertad, que se obtienen sumando el numero de niveles/categorías -1 de cada variable

  • En nuestro ejemplo de tabla de 2x2 (dos categorías de cada variable), los grados de libertad equivalen a:

gl=(21)(21)=11=1

30 / 44

31 / 44

Comparación valor crítico y valor estimado

  • χ2 estimado: 247.46

  • χ2 crítico para un α=0.05 y 1 grado de libertad: 3.84

  • En el ejemplo: valor estimado χ2 > valor crítico χ2

  • Por lo tanto se rechaza H0, podemos decir que hay evidencia de asociación entre percepción de discriminación y nivel educacional con un 95% de confianza

32 / 44

χ2 directamente en R

La función es chisq.test()

chisq.test(table(casen2022_chi$educ_sup,
casen2022_chi$discrim))
##
## Pearson's Chi-squared test with Yates' continuity correction
##
## data: table(casen2022_chi$educ_sup, casen2022_chi$discrim)
## X-squared = 247.46, df = 1, p-value < 2.2e-16
33 / 44

De todas maneras, aparece directamente en varios outputs de tablas de contingencia en R, como la generada antes con sjtab, de librería sjPlot:

casen2022_chi %>%
sjtab(educ_sup,
discrim,
show.row.prc=TRUE)


e6a. ¿Cuál es el
nivel educacional al
que asiste o el más
alto al cual
asistió?
r9t. Últ. 12 meses:
No ha sido tratado
injustamente o
discriminado
Total
discriminad@ no discriminad@
Menos que
universitaria
26996
16 %
141998
84 %
168994
100 %
Universitaria o más 6476
19.5 %
26761
80.5 %
33237
100 %
Total 33472
16.6 %
168759
83.4 %
202231
100 %
χ2=247.461 · df=1 · &phi=0.035 · p=0.000
34 / 44

Resumen: 5 pasos inferencia para tablas cruzadas

  1. Establecer las hipótesis

  2. Calcular frecuencias esperadas

  3. Estimar estadístico de prueba χ2

  4. Establecer valor crítico de la prueba (de acuerdo a un cierto nivel de confianza y grados de libertad)

  5. Contraste e interpretación

35 / 44

Tamaños de efecto de asociación en tablas de contingencia

36 / 44

Coeficiente Phi

  • El Coeficiente Phi (φ) es una medida de asociación entre dos variables binarias.

  • Es similar al coeficiente de correlación de Pearson pero específico para una tabla de contingencia de 2x2.

  • Se interpreta de la misma manera que Pearson en términos de sentido (positivo/negativo) y fuerza (cercanía a 1 / -1)

37 / 44
discriminad@ no discriminad@ Total
Menos que universitaria 30 (a) 20 (b) 50
Universitaria o más 20 (c) 30 (d) 50
Total 50 50 100

ϕ=adbc(a+b)(c+d)(a+c)(b+d)=(30×30)(20×20)(30+20)(20+30)(30+20)(20+30)=9004006250000=5002500=0.2

38 / 44
tabla <- matrix(c(30, 20, 20, 30),
nrow = 2, byrow = TRUE)
print(tabla)
## [,1] [,2]
## [1,] 30 20
## [2,] 20 30
coef_phi <-psych::phi(tabla)
print(coef_phi)
## [1] 0.2










El valor de 0.2 indica una asociación baja entre ambas variables de la tabla de contingencia

39 / 44

V de Cramer

Es una medida general de asociación para tablas que pueden ir más allá de 2x2:

VCramer=χ²n(k1)

Donde:

  • χ² es el valor del estadístico Chi-cuadrado.
  • n es el total de observaciones.
  • k es el menor número entre las filas o columnas de la tabla.
40 / 44
Grupo Categoría 1 Categoría 2
A 30 20
B 10 40
C 50 30
  • χ² = 5.35
  • n = 180
  • La tabla es 3x2, por lo que k = 2.

V=5.35180(21)=5.35180=0.173

Por lo tanto, existe una asociación débil entre las variables

41 / 44
42 / 44

Medidas de asociación según nivel de medición


Nominal Dicotómica Nominal Politómica Ordinal Intervalar/Razón
Nominal Dicotómica Tetracórica / Chi2
Nominal Politómica Chi2 Chi2
Ordinal Biserial Chi2 Spearman, Kendall
Intervalar/Razón Punto Biserial / Prueba t (ANOVA) Pearson/biserial, Policórica Pearson
43 / 44

Estadística Correlacional

Inferencia, Asociación y reporte


Juan Carlos Castillo

Sociología FACSO - UChile

2do Sem 2024

correlacional.netlify.com

44 / 44

Tipos de correlación según nivel de medición


Nominal Dicotómica Nominal Politómica Ordinal Intervalar/Razón
Nominal Dicotómica Tetracórica Biserial Punto Biserial
Nominal Politómica
Ordinal Biserial Spearman, Kendall Pearson/biserial, Policórica
Intervalar/Razón Punto Biserial Pearson/biserial, Policórica Pearson
2 / 44
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
sToggle scribble toolbox
oTile View: Overview of Slides
Esc Back to slideshow