Podemos calcular probabilidades basados en una distribución teórica de ocurrencia de eventos.
Ej: En teoría, la probabilidad de que salga sello al tirar una moneda es 50%
Mientras más repetimos el evento, más se van a acercar los resultados (distribución empírica) a la probabilidad del evento (distribución teórica)
Hay una serie de eventos que en términos teóricos y empíricos tienen una distribución particular en torno al valor central -> normal
La curva normal es una distribución teórica que nos permite tener un estándar con el cual comparar distribuciones empíricas
si pudiera calcular un estadístico en muchas muestras distintas (ej: promedio) este se distribuiría de manera normal
el error estándar es la formula que nos permite obtener el valor de la desviación estándar de los promedios con una sola muestra
el puntaje Z es una medida de distancias del promedio en una distribución normal, que tiene promedio 0 y desviación estándar 1
Z expresa cualquier puntaje en desviaciones estándar desde el promedio (de la curva normal)
Z permite además obtener el valor del percentil de cada puntaje
rango de probabilidad del valor de un parámetro en la población
Para construirlo, 4 pasos:
1- establecer nivel de confianza (convencionalmente 95%)
2- definir puntaje Z correspondiente a este intervalo (para 95% es 1.96)
rango de probabilidad del valor de un parámetro en la población
Para construirlo, 4 pasos:
1- establecer nivel de confianza (convencionalmente 95%)
2- definir puntaje Z correspondiente a este intervalo (para 95% es 1.96)
3- multiplicar Z por el error estándar
4 - restar al promedio (límite inferior) y sumar (límite superior)
"el criterio de demarcación que hemos de adoptar no es el de la verificabilidad, sino el de la falsabilidad de los sistemas. Dicho de otro modo: no exigiré que un sistema científico pueda ser seleccionado, de una vez para siempre, en un sentido positivo; pero sí que sea susceptible de selección en un sentido negativo por medio de contrastes o pruebas empíricas: ha de ser posible refutar por la experiencia un sistema científico empírico" (Popper, 1982, p. 40)
El verificar una hipótesis no hace que una teoría sea verdadera
Se puede intentar refutar una teoría (falsarla) mediante un contraejemplo o hipótesis contraria
Si no es posible refutar la hipótesis contraria, entonces la teoría queda aceptada provisionalmente
Teoría: todos los cuervos son negros
Hipótesis de verificación: hay cuervos negros
Hipótesis de falsación: hay cuervos blancos
si logramos rechazar la hipótesis nula (o sea, que lo contrario de nuestra teoría no es verdad), entonces encontramos evidencia a favor de nuestra teoría
Buscamos no encontrar cuervos blancos
Según número de variables involucradas: univariadas, bivariadas, multivariadas
Según tipo de contraste
hipótesis de diferencia (distinto de)
hipótesis de comparación (mayor/menor qué)
-> más detalle de tipos de hipótesis prox. clase, ahora vamos a un ejemplo
Hipótesis general | Hipótesis estadística |
---|---|
Existen diferencias salariales entre hombres y mujeres | Hipótesis alternativa: Las diferencias son distintas de cero |
No existen diferencias salariales entre hombres y mujeres | Hipótesis nula: Las diferencias no son distintas de cero |
Vamos a generar una submuestra de 350 casos de CASEN para ilustrar de mejor manera el sentido del test de hipótesis
pacman::p_load(sjmisc, haven, dplyr, stargazer, interpretCI, kableExtra)load("casen2022_inf2.Rdata")options(scipen=999) # para evitar notación en los cerosset.seed(20) # para fijar el resultado aleatoriocasen_350 <- casen2022_inf %>% select(salario,sexo) %>% sample_n(350)casen_350 <- na.omit(casen_350)
stargazer(as.data.frame(casen_350), type = "text")
======================================================Statistic N Mean St. Dev. Min Max ------------------------------------------------------salario 343 634,402.300 459,180.200 30,000 2,900,000sexo 343 1.402 0.491 1 2 ------------------------------------------------------
casen_350%>% # se especifica la base de datos dplyr::group_by(sexo=sjlabelled::as_label(sexo)) %>% # se agrupan por la variable categórica y se usan sus etiquetas con as_label dplyr::summarise(Obs.=n(),Promedio=mean(salario, na.rm=TRUE),SD=sd(salario, na.rm=TRUE)) %>% # se agregan las operaciones a presentar en la tabla kable(, format = "markdown") # se genera la tabla
sexo | Obs. | Promedio | SD |
---|---|---|---|
1. Hombre | 205 | 654585.4 | 468692.5 |
2. Mujer | 138 | 604420.3 | 444666.0 |
Diferencia salarial = 654.585-604.420=50.165
Formular hipótesis ( H0 y HA)
Obtener error estándar y estadístico de prueba empírico correspondiente (ej: Z o t)
Establecer la probabilidad de error α (usualmente 0.05) y obtener valor crítico (teórico) de la prueba correspondiente
Cálculo de intervalo de confianza / contraste valores empírico/crítico
Interpretación
Contrastamos la hipótesis nula (no hay diferencias de promedios entre grupos):
H0:ˉXhombres−ˉXmujeres=0
En referencia a la siguiente hipótesis alternativa:
Ha:ˉXhombres−ˉXmujeres≠0
Ambos entregan información consistente y complementaria
En esta clase vamos a estimar solo el intervalo, la próxima veremos el contraste con valor crítico, que el caso de diferencia de medias corresponde a la prueba t de student.
Cada estadístico tiene su propia fórmula de error estándar
En el caso de la diferencia de medias (en este caso, de hombres y mujeres), el error estándar es:
SE=√σdiffna+σdiffnb Donde
σdiff=σ2a(na−1)+σ2b(nb−1)na+nb−2
Cálculo de la desviación estándar de las diferencias de promedios:
σdiff=4686922(205−1)+4446662(138−1)205+138−2=44813126936256+27088715663172341=210855843400
Y enfonces el error estándar de la diferencia de medias: SE=√σdiffna+σdiffnb=√210855843400205+210855843400138=50561
asumimos que existe una probabilidad de error al rechazar H0, para lo cual fijamos un límite convencional -> usualmente un 5%
¿error de qué? -> de rechazar H0 cuando esta existe en la población.
H0:ˉXsueldo mujeres−ˉXsueldo hombres=0
Si hay diferencias de sueldo en la población y rechazamos H0: decisión correcta
Si no hay diferencias de sueldo en la población y rechazamos H0: Error tipo I
Entonces, el α es la probabilidad de error que fijamos para rechazar la hipótesis nula
en lenguaje de prueba de hipótesis, es la probabilidad de rechazar la hipótesis nula cuando esta es verdadera
o la probabilidad de encontrar diferencias entre grupos de la población cuando estas no existen
o en simple, la probabilidad de que nos estemos equivocando
el nivel de confianza de una estimación se determina de manera convencional, usualmente se acepta 95% o 99% de confianza
un nivel de confianza se expresa en una probabilidad de error α (alfa), que es 1- nivel de confianza
para un nivel de confianza de 95%, α=1−0.95=0.05
para un nivel de confianza de 99%, α=1−0.99=0.01
de la clase anterior con prueba Z sabemos que el valor crítico para un 95% de confianza es 1.96
para diferencia de medias se utiliza prueba t, donde el valor crítico es variable según en tamaño muestral
sin embargo, para muestras grandes, t=Z, y por lo tanto por ahora mantendremos los valores referenciales Z (de 1.96) hasta que profundicemos en t la próxima clase
ˉx1−ˉx2±tα/2∗SE¯x1−¯x250165±1.96∗5056150165±99099.56CI[−49287.48;149617.63]
t.test(salario ~ sexo, data = casen_350, var.equal=TRUE)
Two Sample t-testdata: salario by sexot = 0.99215, df = 341, p-value = 0.3218alternative hypothesis: true difference in means between group 1 and group 2 is not equal to 095 percent confidence interval: -49287.48 149617.63sample estimates:mean in group 1 mean in group 2 654585.4 604420.3
rempsyc
pacman::p_load(rempsyc,broom)model <- t.test(salario ~ sexo, data = casen_350, var.equal=TRUE)stats.table <- tidy(model, conf.int = TRUE)nice_table(stats.table, broom = "t.test")
Con un 95% de confianza (5% de probabilidad de error) no se encuentra evidencia de diferencias salariales entre hombres y mujeres.
Alternativamente: No existe evidencia que las diferencias salariales entre hombres y mujeres son distintas de cero, con un 5% de probabilidad de error
hipótesis: aseveraciones sobre algo que ocurre en la población, usualmente asociaciones entre conceptos / variables
las hipótesis se contrastan con un criterio de falsabilidad
el contraste de hipótesis en estadística opera mediante el rechazo de la hipótesis nula (o de no diferencias), con una probabilidad de error α
5 pasos para contraste de hipótesis
Prueba t
hipótesis direccionales (mayor o menor qué) o de una cola (one tail)
inferencia para proporciones
Keyboard shortcuts
↑, ←, Pg Up, k | Go to previous slide |
↓, →, Pg Dn, Space, j | Go to next slide |
Home | Go to first slide |
End | Go to last slide |
Number + Return | Go to specific slide |
b / m / f | Toggle blackout / mirrored / fullscreen mode |
c | Clone slideshow |
p | Toggle presenter mode |
t | Restart the presentation timer |
?, h | Toggle this help |
Esc | Back to slideshow |