class: front .pull-left-wide[ # Estadística Correlacional] .pull-right-narrow[![:scale 85%](img/logo-correlacional-transp.png)] ## Asociación, inferencia y reporte ---- .pull-left[ ## Juan Carlos Castillo ## Sociología FACSO - UChile ## 2do Sem 2024 ## [.orange[correlacional.netlify.com]](https:/correlacional.netlify.com) ] .pull-right-narrow[ .center[ .content-block-gray[ ## .gray[Sesión 3:] ## .curso[Inferencia 2: Error estándar y curva normal]] ] ] --- layout: true class: animated, fadeIn --- # La tarea: .pre[ ``` r # Generar todas las combinaciones posibles de dos dados dado1 <- rep(1:6, each = 6) dado2 <- rep(1:6, times = 6) # Calcular la suma y el promedio para cada combinación suma <- dado1 + dado2 promedio <- suma / 2 # Crear un data frame con los resultados resultados <- data.frame(dado1, dado2, suma, promedio) # Mostrar el data frame print(resultados) # Cargar la librería para gráficos library(ggplot2) # Gráfico de frecuencias para la suma ggplot(resultados, aes(x = suma)) + geom_bar() + labs(title = "Gráfico de Frecuencias de la Suma", x = "Suma", y = "Frecuencia") # Gráfico de frecuencias para los promedios ggplot(resultados, aes(x = promedio)) + geom_bar() + labs(title = "Gráfico de Frecuencias de los Promedios", x = "Promedio", y = "Frecuencia") ``` ] --- .medium[ .pull-left[ ``` r # Generar todas las combinaciones posibles de dos dados dado1 <- rep(1:6, each = 6) dado2 <- rep(1:6, times = 6) # Calcular la suma y el promedio para cada combinación suma <- dado1 + dado2 promedio <- suma / 2 # Crear un data frame con los resultados resultados <- data.frame(dado1, dado2, suma, promedio) # Mostrar el data frame print(resultados) ``` ] .pull-right[ .pre[ ``` dado1 dado2 suma promedio 1 1 1 2 1.0 2 1 2 3 1.5 3 1 3 4 2.0 4 1 4 5 2.5 5 1 5 6 3.0 6 1 6 7 3.5 7 2 1 3 1.5 8 2 2 4 2.0 9 2 3 5 2.5 10 2 4 6 3.0 11 2 5 7 3.5 12 2 6 8 4.0 13 3 1 4 2.0 14 3 2 5 2.5 15 3 3 6 3.0 16 3 4 7 3.5 17 3 5 8 4.0 18 3 6 9 4.5 19 4 1 5 2.5 20 4 2 6 3.0 21 4 3 7 3.5 22 4 4 8 4.0 23 4 5 9 4.5 24 4 6 10 5.0 25 5 1 6 3.0 26 5 2 7 3.5 27 5 3 8 4.0 28 5 4 9 4.5 29 5 5 10 5.0 30 5 6 11 5.5 31 6 1 7 3.5 32 6 2 8 4.0 33 6 3 9 4.5 34 6 4 10 5.0 35 6 5 11 5.5 36 6 6 12 6.0 ``` ] ] ] --- .medium[ .pull-left[ ``` r # Cargar la librería para gráficos library(ggplot2) # Gráfico de frecuencias para la suma ggplot(resultados, aes(x = suma)) + geom_bar() + labs(title = "Gráfico de Frecuencias de la Suma", x = "Suma", y = "Frecuencia") # Gráfico de frecuencias para los promedios ggplot(resultados, aes(x = promedio)) + geom_bar() + labs(title = "Gráfico de Frecuencias de los Promedios", x = "Promedio", y = "Frecuencia") ``` ] .pull-right[ .pre[ ![](03-inferencia2_files/figure-html/unnamed-chunk-5-1.png)<!-- -->![](03-inferencia2_files/figure-html/unnamed-chunk-5-2.png)<!-- --> ] ] ] --- # Probabilidad de promedio de 2 dados al azar ``` Promedio Probabilidad 1 1.0 0.02777778 2 1.5 0.05555556 3 2.0 0.08333333 4 2.5 0.11111111 5 3.0 0.13888889 6 3.5 0.16666667 7 4.0 0.13888889 8 4.5 0.11111111 9 5.0 0.08333333 10 5.5 0.05555556 11 6.0 0.02777778 ``` --- # ¿Qué aprendimos de esto? - la ocurrencia de algunos eventos (como la suma o promedio de dos dados) tienen una probabilidad determinada, lo que genera una **distribución teórica de probabilidad** -- - si repito un evento aleatorio (ej: sacar muestras repetidas de dos dados y promediarlos) obtengo la **distribución empírica de probabilidad** (de frecuencias de los eventos) -- - de acuerdo a la **ley de los grandes números**, el promedio empírico convergerá al teórico a medida que aumenta el número de repeticiones --- ![](03-inferencia2_files/figure-html/unnamed-chunk-7-1.png)<!-- -->![](03-inferencia2_files/figure-html/unnamed-chunk-7-2.png)<!-- -->![](03-inferencia2_files/figure-html/unnamed-chunk-7-3.png)<!-- -->![](03-inferencia2_files/figure-html/unnamed-chunk-7-4.png)<!-- -->![](03-inferencia2_files/figure-html/unnamed-chunk-7-5.png)<!-- --> ![](03-inferencia2_files/figure-html/unnamed-chunk-8-1.png)<!-- --> --- ![](03-inferencia2_files/figure-html/unnamed-chunk-9-1.png)<!-- --> --- ![](03-inferencia2_files/figure-html/unnamed-chunk-10-1.png)<!-- --> --- ![](03-inferencia2_files/figure-html/unnamed-chunk-11-1.png)<!-- --> --- ![](03-inferencia2_files/figure-html/unnamed-chunk-12-1.png)<!-- --> --- ![](03-inferencia2_files/figure-html/unnamed-chunk-13-1.png)<!-- --> --- # Muestra y distribución - Sabemos que si sacamos muchos promedios de eventos aleatorios estos se van a aproximar a una distribución teórica de probabilidad -- - ¿De qué nos sirve esta información si - ¿contamos sólo con un evento aleatorio o muestra de datos (ej: un promedio de dos dados)? - ¿no conocemos la distribución teórica? --- class: inverse bottom right # Curva normal: un modelo teórico de distribución conocido --- .pull-left[ ## Histograma Frecuencias o probabilidad empírica de cada evento ![](03-inferencia2_files/figure-html/unnamed-chunk-14-1.png)<!-- --> ] .pull-right[ ## Curvas de densidad Modelo teórico/matemático de la distribución ![](03-inferencia2_files/figure-html/unnamed-chunk-15-1.png)<!-- --> ] --- # Curva de distribución - Una **curva de distribución** de frecuencias es un sustituto de un histograma de frecuencias donde reemplazamos estos gráficos con una curva _suavizada_ -- - Representa una función/generalización de cómo se distribuyen las puntuaciones en la población de manera teórica -- - Las puntuaciones se ordenan de izquierda (más bajo) a derecha (más alto) en el eje horizontal (x) -- - El área bajo la curva representa el 100% de los casos de la población --- background-image: url(img/normal.png) background-size: cover # Curva de distribución normal - Es una curva que representa la distribución de los casos de la población en torno al promedio y con una varianza conocida -- - Coinciden al centro el promedio, la mediana y la moda -- - Es simétrica y de forma acampanada -- - Establece áreas bajo la curva en base a desviaciones estándar del promedio --- class: middle .pull-left-narrow[ # ¿Por qué es importante la distribución normal en estadística? ] -- .pull-right-wide[ .content-box-red[ - Permite **comparar** puntajes de distintas distribuciones en base a un mismo estándar (puntajes Z) - Permite estimar **proporciones** bajo la curva normal de cualquier valor de la distribución - **Base** de la distribución muestral del promedio, error estándar, e inferencia estadística en general ] ] --- ## Distribución normal, desviaciones estándar y áreas bajo la curva .center[ ![:scale 75%](img/norm2.png) ] --- # Puntaje `\(z\)` y estandarización - **Estandarización**: expresar el valor de una distribución en términos de desviaciones estándar basados en la distribución normal - Permite comparar valores de distribuciones distíntas, ya que lleva los puntajes a un mismo **estándar** - Para obtener el valor estandarizado (**puntaje Z**) se le resta la media y se divide por la desviación estándar `$$z=\frac{x-\mu}{\sigma}$$` --- # Ejemplo comparación distribuciones (Ritchey, p. 148) - Mary obtiene 26 puntos en la prueba académica ACT, que va de 0 a 36, con media=22 y sd=2 - Jason obtiene 900 puntos en la prueba SAT, que va de 200 a 1600, con media=1000 y sd=100 -- .content-box-red[ .center[ ## ¿A quién le fue mejor? ## ¿Cómo le fue específicamente a cada uno? ]] --- ## Comparando peras con manzanas: `\begin{align*} Z_{Mary}&=\frac{x-\mu}{\sigma}=\frac{26-22}{2}=2 \\ \\ Z_{Jason}&=\frac{x-\mu}{\sigma}=\frac{900-1000}{100}=-1 \end{align*}` - `\(Z\)` entrega un puntaje comparable en términos de desviaciones estándar respecto del promedio - Estos puntajes además pueden traducirse a la ubicación del puntaje en percentiles de la distribución normal --- # Proporciones .pull-left[ Asumiendo distribución normal, se puede obtener la proporción de casos bajo la curva normal que están sobre y bajo el puntaje Z ] .pull-right[ ![](03-inferencia2_files/figure-html/unnamed-chunk-16-1.png)<!-- --> ] --- class: middle .pull-left[ ## Ejemplo 1 ![](img/norm2.png) ] .pull-right[ .medium[ <br> <br> <br> Pensemos en estatura de 1.65, en una muestra con `\(\bar{x}=160\)` y `\(\sigma=5\)`. `$$z=\frac{x-\mu}{\sigma}=\frac{165-160}{5}=1$$` En base a la distribución normal sabemos que bajo 1 desviación estańdar está el 68% de los datos + la cola izquierda de la curva, que es (100-68/2)=16%. Ej: 84% (68+16) de los casos tienen una estatura menor a 165 cm ]] --- ## Ejemplo 2 .pull-left[ .small[ Puntaje en prueba=450, en una muestra con media=500 y ds=100, en R ``` r # Definimos los parámetros X <- 450 # Puntaje mu <- 500 # Media sigma <- 100 # Desviación estándar # Calculamos el puntaje z z <- (X - mu) / sigma z # Calculamos el percentil asociado al puntaje z percentil <- pnorm(z) * 100 # Mostramos el resultado percentil ``` ] ] -- .pull-right[ ``` [1] 30.85375 ``` ] --- # Distribución muestral del promedio .pull-left-narrow[ <br> ![](img/normal.png) ] .pull-right-wide[ - Si tengo la desviación estándar de los promedios, puedo construir un .red[intervalo] de probabilidad, basado en la curva normal - Por ejemplo si mi promedio es 10 y la desviación estándar (ds) es 1, puedo decir que el un rango de 8 y 12 se encuentra (app) el 95% de los promedios (prom +/- 2 ds) - Peeero ... ] --- class: roja ## .yellow[Problema: tenemos 1 SOLA MUESTRA, y un solo promedio] # ¿Cómo obtenemos entonces la desviación estándar de los promedios? --- class: inverse bottom right # Error estándar y teorema central del límite --- .pull-left-narrow[ ![](https://multivariada.netlify.app/slides/images/inference1.png) ] .pull-right-wide[ .content-box-purple[ ## Desviación estándar y error estándar] - más que el promedio de la variable en nuestra **muestra**, en inferencia nos interesa estimar en qué medida ese promedio da cuenta del promedio de la **población** {{content}} ] -- - contamos con **una muestra**, pero sabemos que otras muestras podrían haber sido extraídas, probablemente con distintos resultados. --- # Distribución muestral del promedio ![](https://multivariada.netlify.app/slides/images/se_1.png) --- # Distribución muestral del promedio ![](https://multivariada.netlify.app/slides/images/se_2.png) --- # Distribución muestral del promedio ![](https://multivariada.netlify.app/slides/images/se_3.png) --- # Teorema del límite central - la distribución de los promedios de distintas muestras - o .red[distribución muestral del promedio] - se aproxima a una distribución normal -- - En muestras mayores a 30 la desviación estándar de los promedios (error estándar del promedio) equivale a: `$$\sigma_{\bar{X}}=SE(error estándar)=\frac{s}{\sqrt{N}}$$` - `\(s\)` = desviación estándar de la muestra - `\(N\)` = tamaño de la muestra --- class: inverse middle right ## Basados en el .orange[teorema del límite central], es posible calcular la desviación estándar de los promedios (error estándar) con #.yellow[una sola muestra] --- ### Demostración: 10 muestras, 5 casos c/u ![](img/demo_SE.png) .medium[ .right[ -> ver demostración con más casos [aquí](https://docs.google.com/spreadsheets/d/1YrMd_ds5zHgQWrdjYcX5Diwv7bQHDzf5r2A0oYWriyA/edit#gid=0) ] ] --- class: inverse middle right # ¿Para qué nos sirve el .red[error estándar] o .red[SE] del promedio? ##(... y de otros estadísticos, como la correlación) --- # Usos del error estándar - Dos usos complementarios: - construcción de intervalos de confianza - test de hipótesis -- .content-box-red[ ## -> Próxima clase ] --- class: inverse # .yellow[Resumen] ### - Probabilidades teóricas y empíricas ### - Curva normal y puntajes Z ### - Error estándar --- class: front .pull-left-wide[ # Estadística Correlacional] .pull-right-narrow[![:scale 85%](img/logo-correlacional-transp.png)] ## Inferencia, asociación y reporte ---- .pull-left[ ## Juan Carlos Castillo ## Sociología FACSO - UChile ## 2do Sem 2024 ## [.orange[correlacional.netlify.com]](https://encuestas-sociales.netlify.com) ]