+ - 0:00:00
Notes for current slide
Notes for next slide

Estadística Correlacional

Asociación, inferencia y reporte


Juan Carlos Castillo

Sociología FACSO - UChile

2do Sem 2024

correlacional.netlify.com

Sesión 3:

Inferencia 2: Error estándar y curva normal

1 / 39

La tarea:

# Generar todas las combinaciones posibles de dos dados
dado1 <- rep(1:6, each = 6)
dado2 <- rep(1:6, times = 6)
# Calcular la suma y el promedio para cada combinación
suma <- dado1 + dado2
promedio <- suma / 2
# Crear un data frame con los resultados
resultados <- data.frame(dado1, dado2, suma, promedio)
# Mostrar el data frame
print(resultados)
# Cargar la librería para gráficos
library(ggplot2)
# Gráfico de frecuencias para la suma
ggplot(resultados, aes(x = suma)) +
geom_bar() +
labs(title = "Gráfico de Frecuencias de la Suma", x = "Suma", y = "Frecuencia")
# Gráfico de frecuencias para los promedios
ggplot(resultados, aes(x = promedio)) +
geom_bar() +
labs(title = "Gráfico de Frecuencias de los Promedios", x = "Promedio", y = "Frecuencia")
2 / 39
# Generar todas las combinaciones posibles de dos dados
dado1 <- rep(1:6, each = 6)
dado2 <- rep(1:6, times = 6)
# Calcular la suma y el promedio para cada combinación
suma <- dado1 + dado2
promedio <- suma / 2
# Crear un data frame con los resultados
resultados <- data.frame(dado1, dado2, suma, promedio)
# Mostrar el data frame
print(resultados)
dado1 dado2 suma promedio
1 1 1 2 1.0
2 1 2 3 1.5
3 1 3 4 2.0
4 1 4 5 2.5
5 1 5 6 3.0
6 1 6 7 3.5
7 2 1 3 1.5
8 2 2 4 2.0
9 2 3 5 2.5
10 2 4 6 3.0
11 2 5 7 3.5
12 2 6 8 4.0
13 3 1 4 2.0
14 3 2 5 2.5
15 3 3 6 3.0
16 3 4 7 3.5
17 3 5 8 4.0
18 3 6 9 4.5
19 4 1 5 2.5
20 4 2 6 3.0
21 4 3 7 3.5
22 4 4 8 4.0
23 4 5 9 4.5
24 4 6 10 5.0
25 5 1 6 3.0
26 5 2 7 3.5
27 5 3 8 4.0
28 5 4 9 4.5
29 5 5 10 5.0
30 5 6 11 5.5
31 6 1 7 3.5
32 6 2 8 4.0
33 6 3 9 4.5
34 6 4 10 5.0
35 6 5 11 5.5
36 6 6 12 6.0
3 / 39
# Cargar la librería para gráficos
library(ggplot2)
# Gráfico de frecuencias para la suma
ggplot(resultados, aes(x = suma)) +
geom_bar() +
labs(title = "Gráfico de Frecuencias de la Suma", x = "Suma", y = "Frecuencia")
# Gráfico de frecuencias para los promedios
ggplot(resultados, aes(x = promedio)) +
geom_bar() +
labs(title = "Gráfico de Frecuencias de los Promedios", x = "Promedio", y = "Frecuencia")

4 / 39

Probabilidad de promedio de 2 dados al azar

Promedio Probabilidad
1 1.0 0.02777778
2 1.5 0.05555556
3 2.0 0.08333333
4 2.5 0.11111111
5 3.0 0.13888889
6 3.5 0.16666667
7 4.0 0.13888889
8 4.5 0.11111111
9 5.0 0.08333333
10 5.5 0.05555556
11 6.0 0.02777778
5 / 39

¿Qué aprendimos de esto?

  • la ocurrencia de algunos eventos (como la suma o promedio de dos dados) tienen una probabilidad determinada, lo que genera una distribución teórica de probabilidad
6 / 39

¿Qué aprendimos de esto?

  • la ocurrencia de algunos eventos (como la suma o promedio de dos dados) tienen una probabilidad determinada, lo que genera una distribución teórica de probabilidad

  • si repito un evento aleatorio (ej: sacar muestras repetidas de dos dados y promediarlos) obtengo la distribución empírica de probabilidad (de frecuencias de los eventos)

6 / 39

¿Qué aprendimos de esto?

  • la ocurrencia de algunos eventos (como la suma o promedio de dos dados) tienen una probabilidad determinada, lo que genera una distribución teórica de probabilidad

  • si repito un evento aleatorio (ej: sacar muestras repetidas de dos dados y promediarlos) obtengo la distribución empírica de probabilidad (de frecuencias de los eventos)

  • de acuerdo a la ley de los grandes números, el promedio empírico convergerá al teórico a medida que aumenta el número de repeticiones
6 / 39

7 / 39

8 / 39

9 / 39

10 / 39

11 / 39

12 / 39

Muestra y distribución

  • Sabemos que si sacamos muchos promedios de eventos aleatorios estos se van a aproximar a una distribución teórica de probabilidad
13 / 39

Muestra y distribución

  • Sabemos que si sacamos muchos promedios de eventos aleatorios estos se van a aproximar a una distribución teórica de probabilidad

  • ¿De qué nos sirve esta información si

    • ¿contamos sólo con un evento aleatorio o muestra de datos (ej: un promedio de dos dados)?

    • ¿no conocemos la distribución teórica?

13 / 39

Curva normal: un modelo teórico de distribución conocido

14 / 39

Histograma

Frecuencias o probabilidad empírica de cada evento

Curvas de densidad

Modelo teórico/matemático de la distribución

15 / 39

Curva de distribución

  • Una curva de distribución de frecuencias es un sustituto de un histograma de frecuencias donde reemplazamos estos gráficos con una curva suavizada
16 / 39

Curva de distribución

  • Una curva de distribución de frecuencias es un sustituto de un histograma de frecuencias donde reemplazamos estos gráficos con una curva suavizada

  • Representa una función/generalización de cómo se distribuyen las puntuaciones en la población de manera teórica

16 / 39

Curva de distribución

  • Una curva de distribución de frecuencias es un sustituto de un histograma de frecuencias donde reemplazamos estos gráficos con una curva suavizada

  • Representa una función/generalización de cómo se distribuyen las puntuaciones en la población de manera teórica

  • Las puntuaciones se ordenan de izquierda (más bajo) a derecha (más alto) en el eje horizontal (x)

16 / 39

Curva de distribución

  • Una curva de distribución de frecuencias es un sustituto de un histograma de frecuencias donde reemplazamos estos gráficos con una curva suavizada

  • Representa una función/generalización de cómo se distribuyen las puntuaciones en la población de manera teórica

  • Las puntuaciones se ordenan de izquierda (más bajo) a derecha (más alto) en el eje horizontal (x)

  • El área bajo la curva representa el 100% de los casos de la población

16 / 39

Curva de distribución normal

  • Es una curva que representa la distribución de los casos de la población en torno al promedio y con una varianza conocida
17 / 39

Curva de distribución normal

  • Es una curva que representa la distribución de los casos de la población en torno al promedio y con una varianza conocida

  • Coinciden al centro el promedio, la mediana y la moda

17 / 39

Curva de distribución normal

  • Es una curva que representa la distribución de los casos de la población en torno al promedio y con una varianza conocida

  • Coinciden al centro el promedio, la mediana y la moda

  • Es simétrica y de forma acampanada

17 / 39

Curva de distribución normal

  • Es una curva que representa la distribución de los casos de la población en torno al promedio y con una varianza conocida

  • Coinciden al centro el promedio, la mediana y la moda

  • Es simétrica y de forma acampanada

  • Establece áreas bajo la curva en base a desviaciones estándar del promedio

17 / 39

¿Por qué es importante la distribución normal en estadística?

18 / 39

¿Por qué es importante la distribución normal en estadística?

  • Permite comparar puntajes de distintas distribuciones en base a un mismo estándar (puntajes Z)

  • Permite estimar proporciones bajo la curva normal de cualquier valor de la distribución

  • Base de la distribución muestral del promedio, error estándar, e inferencia estadística en general

18 / 39

Distribución normal, desviaciones estándar y áreas bajo la curva

19 / 39

Puntaje zz y estandarización

  • Estandarización: expresar el valor de una distribución en términos de desviaciones estándar basados en la distribución normal

  • Permite comparar valores de distribuciones distíntas, ya que lleva los puntajes a un mismo estándar

  • Para obtener el valor estandarizado (puntaje Z) se le resta la media y se divide por la desviación estándar

z=xμσz=xμσ

20 / 39

Ejemplo comparación distribuciones (Ritchey, p. 148)

  • Mary obtiene 26 puntos en la prueba académica ACT, que va de 0 a 36, con media=22 y sd=2

  • Jason obtiene 900 puntos en la prueba SAT, que va de 200 a 1600, con media=1000 y sd=100

21 / 39

Ejemplo comparación distribuciones (Ritchey, p. 148)

  • Mary obtiene 26 puntos en la prueba académica ACT, que va de 0 a 36, con media=22 y sd=2

  • Jason obtiene 900 puntos en la prueba SAT, que va de 200 a 1600, con media=1000 y sd=100

¿A quién le fue mejor?

¿Cómo le fue específicamente a cada uno?

21 / 39

Comparando peras con manzanas:

ZMary=xμσ=26222=2ZJason=xμσ=9001000100=1

  • Z entrega un puntaje comparable en términos de desviaciones estándar respecto del promedio

  • Estos puntajes además pueden traducirse a la ubicación del puntaje en percentiles de la distribución normal

22 / 39

Proporciones

Asumiendo distribución normal, se puede obtener la proporción de casos bajo la curva normal que están sobre y bajo el puntaje Z

23 / 39

Ejemplo 1




Pensemos en estatura de 1.65, en una muestra con ˉx=160 y σ=5.

z=xμσ=1651605=1

En base a la distribución normal sabemos que bajo 1 desviación estańdar está el 68% de los datos + la cola izquierda de la curva, que es (100-68/2)=16%.

Ej: 84% (68+16) de los casos tienen una estatura menor a 165 cm

24 / 39

Ejemplo 2

Puntaje en prueba=450, en una muestra con media=500 y ds=100, en R

# Definimos los parámetros
X <- 450 # Puntaje
mu <- 500 # Media
sigma <- 100 # Desviación estándar
# Calculamos el puntaje z
z <- (X - mu) / sigma
z
# Calculamos el percentil asociado al puntaje z
percentil <- pnorm(z) * 100
# Mostramos el resultado
percentil
25 / 39

Ejemplo 2

Puntaje en prueba=450, en una muestra con media=500 y ds=100, en R

# Definimos los parámetros
X <- 450 # Puntaje
mu <- 500 # Media
sigma <- 100 # Desviación estándar
# Calculamos el puntaje z
z <- (X - mu) / sigma
z
# Calculamos el percentil asociado al puntaje z
percentil <- pnorm(z) * 100
# Mostramos el resultado
percentil
[1] 30.85375
25 / 39

Distribución muestral del promedio


  • Si tengo la desviación estándar de los promedios, puedo construir un intervalo de probabilidad, basado en la curva normal

  • Por ejemplo si mi promedio es 10 y la desviación estándar (ds) es 1, puedo decir que el un rango de 8 y 12 se encuentra (app) el 95% de los promedios (prom +/- 2 ds)

  • Peeero ...

26 / 39

Problema: tenemos 1 SOLA MUESTRA, y un solo promedio

¿Cómo obtenemos entonces la desviación estándar de los promedios?

27 / 39

Error estándar y teorema central del límite

28 / 39

Desviación estándar y error estándar

  • más que el promedio de la variable en nuestra muestra, en inferencia nos interesa estimar en qué medida ese promedio da cuenta del promedio de la población
29 / 39

Desviación estándar y error estándar

  • más que el promedio de la variable en nuestra muestra, en inferencia nos interesa estimar en qué medida ese promedio da cuenta del promedio de la población
  • contamos con una muestra, pero sabemos que otras muestras podrían haber sido extraídas, probablemente con distintos resultados.
29 / 39

Distribución muestral del promedio

30 / 39

Distribución muestral del promedio

31 / 39

Distribución muestral del promedio

32 / 39

Teorema del límite central

  • la distribución de los promedios de distintas muestras - o distribución muestral del promedio - se aproxima a una distribución normal
33 / 39

Teorema del límite central

  • la distribución de los promedios de distintas muestras - o distribución muestral del promedio - se aproxima a una distribución normal

  • En muestras mayores a 30 la desviación estándar de los promedios (error estándar del promedio) equivale a: σˉX=SE(errorestándar)=sN

    • s = desviación estándar de la muestra
    • N = tamaño de la muestra
33 / 39

Basados en el teorema del límite central, es posible calcular la desviación estándar de los promedios (error estándar) con

una sola muestra

34 / 39

Demostración: 10 muestras, 5 casos c/u

-> ver demostración con más casos aquí

35 / 39

¿Para qué nos sirve el error estándar o SE del promedio?

(... y de otros estadísticos, como la correlación)

36 / 39

Usos del error estándar

  • Dos usos complementarios:

    • construcción de intervalos de confianza

    • test de hipótesis

37 / 39

Usos del error estándar

  • Dos usos complementarios:

    • construcción de intervalos de confianza

    • test de hipótesis

-> Próxima clase

37 / 39

Resumen

- Probabilidades teóricas y empíricas

- Curva normal y puntajes Z

- Error estándar

38 / 39

Estadística Correlacional

Inferencia, asociación y reporte


Juan Carlos Castillo

Sociología FACSO - UChile

2do Sem 2024

correlacional.netlify.com

39 / 39

La tarea:

# Generar todas las combinaciones posibles de dos dados
dado1 <- rep(1:6, each = 6)
dado2 <- rep(1:6, times = 6)
# Calcular la suma y el promedio para cada combinación
suma <- dado1 + dado2
promedio <- suma / 2
# Crear un data frame con los resultados
resultados <- data.frame(dado1, dado2, suma, promedio)
# Mostrar el data frame
print(resultados)
# Cargar la librería para gráficos
library(ggplot2)
# Gráfico de frecuencias para la suma
ggplot(resultados, aes(x = suma)) +
geom_bar() +
labs(title = "Gráfico de Frecuencias de la Suma", x = "Suma", y = "Frecuencia")
# Gráfico de frecuencias para los promedios
ggplot(resultados, aes(x = promedio)) +
geom_bar() +
labs(title = "Gráfico de Frecuencias de los Promedios", x = "Promedio", y = "Frecuencia")
2 / 39
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
sToggle scribble toolbox
Esc Back to slideshow