Trabajos
El curso de Estadística Correlacional considera la elaboración de un trabajo grupal como instancia final de evaluación. El trabajo a realizar es la elaboración de un reporte de análisis bivariado.
La nota de este trabajo equivale a un 30% de la nota final del curso, donde 20% equivale al reporte escrito y 10% a la presentación (en formato póster).
1 Objetivo general
Aplicar los contenidos del curso a una temática de interés en formato de reporte breve de investigación.
2 Datos
Para la elaboración de los trabajos se utilizarán bases de datos secundarias disponibles, tales como:
- CASEN 2022
- Encuesta de Bienestar Social EBS 2021, que se aplica a una submuestra de CASEN y que por lo tanto permite vincular la información de ambas encuestas. En su primera versión se aplicó a una submuestra de CASEN 2020, por lo que los análisis utilizando la EBS 2021 remiten a la CASEN 2020 en pandemia. La versión de EBS vinculada a CASEN 2022 se lanzara durante Noviembre 2024.
- ELSOC
- SIMCE (evt. subset)
- LAPOP
- Desiguales
- CEP: varios temas/preguntas para encuestas desde 1990 en adelante, muy buen buscador!
- ISSP (International Social Survey Programme)
- WVS (Encuesta Mundial de Valores)
- Encuestas Laborales
3 Temas y análisis
Cada grupo seleccionará un tema/concepto central (variable dependiente), por ejemplo: prejuicio hacia migrantes, nivel educacional, orientación política, etc. Luego, debe relacionar el tema seleccionado con al menos dos variables (ej: género, nivel socioeconómico, salud, confianza en instituciones, etc.) que serán las variables independientes del reporte. Para seleccionar el tema y las variables disponibles se deben revisar los cuestionarios, libros de códigos y reportes de las encuestas mencionadas.
Los análisis deben considerar al menos un cruce entre variables categóricas, y otro entre una variable continua y una categórica.
4 Inscripción de grupos
Inscribirse en la siguiente planilla hasta el 08 de Noviembre.
5 Secciones del informe
A continuación se presentan las secciones que debe contener el informe, con una aproximación del número de palabras de cada sección:
Título y resumen (1 punto)
1. Introducción (2 puntos, app. 500 palabras)
Definición de la problemática a abordar, su relevancia y principales conceptos.
En este apartado es importante considerar:
Relevancia del tema de investigación.
Problematización: señalar problema de investigación y principales antecedentes
Precisar los conceptos centrales a investigar: Ejemplo “vamos a analizar la participación informal, entendiendo por ello la frecuencia de participación en actividades como marchas, boycotts y en redes sociales” [cita que apoye la definición].
Mencionar el principal objetivo del trabajo y las hipótesis de investigación en el párrafo final de esta sección (ej: se espera que el nivel educacional sea mayor en zonas urbanas en relación a zonas rurales). Mencionar al menos tres hipótesis.
Esta sección debe estar respaldada por al menos 5 referencias bibliográficas.
2. Metodología (2 puntos, app. 800 palabras)
2.1 Datos: descripción detallada de los datos a utilizar
2.2 Variables
Descripción de cada una de las variables, su operacionalización y medición. Esta sección también incluye una tabla de descriptivos básicos.
Atención sobre recodificación de variables
Es importante que las variables sean recodificadas en el sentido del atributo que se está midiendo de menos a más, es decir, que el mayor valor exprese la mayor presencia del atributo.
Ejemplo 1: si lo que se está midiendo es apoyo al aborto libre en una escala donde 5 es totalmente en desacuerdo y 1 totalmente de acuerdo, se deben recodificar los valores para que un mayor puntaje exprese mayor apoyo al aborto libre. En concreto: 1=5, 2=4, 4=2, 5=1.
Ejemplo 2: variable dicotómica 0: si vota, 1: no vota, debe ser recodificada a 1: si vota, 0: no vota.
2.3 Métodos
Mencionar los métodos estadísticos a utilizar para el contraste de hipótesis y cálculo del tamaño de efecto.
3. Análisis (8 puntos, app. 1000 -1500 palabras)
3.1 Análisis descriptivo: tablas y/o gráficos comentados, univariados y bivariados según sea más pertinente. Para esto considere medidas de tendencia central, dispersión y frecuencias, siempre considerando el nivel de medición de sus variables. En los casos que sea atingente, incluya los intervalos de confianza al 95 %.
3.2 Análisis estadístico bivariado: considerar la estimación de coeficientes de correlación y también medidas de asociación para variables categóricas. Esta parte del análisis se relaciona directamente con las hipótesis planteadas. Para esto realizar pruebas de hipótesis estadísticas, estadísticos de tamaño del efecto y tablas de contingencia / cruzadas, siempre considerando el nivel de medición de sus variables.
Al final de esta sección también se realiza la discusión de resultados en relación a las hipótesis planteadas
4. Conclusiones (1 puntos, app. 300 palabras)
Resumen general, limitaciones y sugerencias para futuros análisis
5. Bibliografía (1 punto)
Formato APA 7
6 Formato
El formato de entrega del trabajo será en html vía Rmarkdown/Quarto, dado que facilita la integración y reproducibilidad de los análisis en R. La plantilla para poder realizar el trabajo se presentará en los prácticos.
7 Entrega
En la sección de tareas de UCursos. Se debe adjuntar un archivo comprimido con la carpeta del proyecto.
Algunas bases de datos son de gran tamaño y por lo tanto utilizan muchos recursos de memoria del computador, enlentenciendo el procesamiento (por ejemplo, CASEN original pesa 1,7 Gigas). Por ello, se sugiere generar un subset con los datos a utilizar, grabar el subset como una nueva base con formato Rdata, y esos datos incluirlos en la carpeta del trabajo. El código que genera este subset debe quedar respaldado en la carpeta de procesamiento (proc), con un nombre del tipo subset.R.
Acá ejemplo:
casen2022 <- read_dta("/home/Downloads/Base de datos Casen 2022 STATA.dta") # llamar desde carpeta local
casen2022_subset <- casen2022 %>%
select(y1,sexo) # seleccionar variables y dar un nombre al subset (puede ser cualquier nombre)
casen2022_subset <- casen2020_inf %>%
rename("salario"=y1) #renombrar
save(casen2022_subset,
file = "input/data/casen2022_subset.Rdata") #guardar objeto
rm(list = c('casen2022')) # quitar del environment para liberar espacio en la memoria
Y luego, en la hoja de código, comenzar con:
load("input/data/casen2022_subset.Rdata")
8 Modalidad de trabajo y asesorías
Los trabajos se desarrollarán en grupos de máximo 5 integrantes. Cada grupo será asignado a un/a ayudante y también a un/a apoyo docente, quienes asesorarán periódicamente a sus grupos. El espacio principal de asesoría será durante los prácticos los días martes. El detalle de las actividades de esta unidad se encuentra en la página de planificación
9 Recomendaciones generales para el trabajo
9.1 Organización de actividades
Hay 4 semanas para realizar el trabajo. Durante este tiempo los horarios de clases estarán destinados a contenidos asociados a la realización de los reportes, así como también a asesorar a los grupos. Se sugiere organizar las actividades de la siguiente manera:
- Semana 1: definición de grupos, temas y base de datos
- Semana 2: análisis descriptivos univariados, chequeo de nivel de medición de variables, varianza y casos perdidos
- Semana 3: escritura de introducción y análisis bivariados. Diseño de póster.
- Semana 4: conclusiones y redacción final, presentación de póster y entrega de reporte.
9.2 Escritura académica
Una idea por párrafo
Uso de “oración principal” (topic sentence): usualmente es la oración al principio del párrafo, que resume el sentido del párrafo completo y que conecta con el párrafo anterior.
Recursos de apoyo a la escritura académica de la Universidad de Chile
9.3 A tener en cuenta:
los conceptos centrales deben estar en las hipótesis y también luego operacionalizarse en variables. No presentar variables que no se relacionen con los conceptos centrales de la sección inicial
si hay muchos casos perdidos (mas de un tercio de datos originales), explicar claramente a qué se debe esta pérdida. Existe la posibilidad de recuperar casos perdidos de predictores categóricos (o recodificados a categóricos) agregando una categoría adicional de perdidos. Esto se explica en la guía de índices y transformación de variables.
interpretación de hipótesis e inferencia: las hipótesis nunca se comprueban o se descartan, solo se puede hablar de que existe o no existe evidencia a favor de la hipótesis planteada. Recordar que la ausencia de evidencia no es evidencia de ausencia.
evitar términos técnicos estadísticos (ej: correlación) antes de la sección de metodología
mantener coherencia entre conceptos, hipótesis, descripción de variables, análisis, discusión, ojalá siempre en el mismo orden.