
Diseño muestral: estimaciones correctas (EH y ECE)
Source:vignettes/diseno-muestral.Rmd
diseno-muestral.RmdTanto la Encuesta de Hogares (EH) como la Encuesta Continua de Empleo (ECE) son muestras con diseño complejo: estratificadas y bietápicas (UPM dentro de estrato), con factores de expansión. Calcular medias o proporciones ignorando el diseño produce errores estándar incorrectos y, sin ponderar, también estimaciones puntuales sesgadas.
encuestasbo integra
srvyr/survey. diseno_eh() y
diseno_ece() devuelven un objeto de diseño listo
(ids = upm, strata = estrato, pesos = factor
de expansión, nest = TRUE), sobre el que se usa
survey_mean(), survey_total(),
survey_prop() o survey_ratio().
Encuesta de Hogares
# Diseño de la EH 2023 (pesos = factor de expansión anual)
des <- diseno_eh(2023)
# Tasa de pobreza nacional con intervalo de confianza
des |>
summarise(pobreza = survey_mean(pobre, na.rm = TRUE, vartype = "ci"))
#> # A tibble: 1 × 3
#> pobreza pobreza_low pobreza_upp
#> <dbl> <dbl> <dbl>
#> 1 0.365 0.351 0.379La estimación ponderada (~36.5 %) coincide con la cifra oficial del INE; la media sin ponderar difiere y no permite un intervalo de confianza válido.
# Desagregaciones: ingreso del hogar por área; pobreza por departamento
diseno_eh(2023) |>
group_by(area) |>
summarise(ingreso = survey_mean(ingreso_hogar, na.rm = TRUE, vartype = "ci"))
diseno_eh(2023) |>
group_by(depto) |>
summarise(pobreza = survey_mean(pobre, na.rm = TRUE, vartype = "cv"))Encuesta Continua de Empleo
La ECE es trimestral y tiene dos factores de expansión
distintos: trimestral y mensual. diseno_ece() usa
el trimestral por defecto (el adecuado para
estimaciones del trimestre).
# Diseño de la ECE 4T-2023 (factor trimestral)
dece <- diseno_ece(2023, trimestre = 4)
# Tasa de desempleo abierto (desocupados / activos) con IC
dece |>
summarise(td = survey_ratio(pead, pea, na.rm = TRUE, vartype = "ci"))
# Población ocupada estimada (total) por área
dece |>
group_by(area) |>
summarise(ocupados = survey_total(peao, na.rm = TRUE))
# Para estimaciones de un mes concreto, usar el factor mensual
diseno_ece(2023, trimestre = 4, factor = "mensual") |>
summarise(td = survey_ratio(pead, pea, na.rm = TRUE))Variables de empleo (nombres nativos de la ECE): pet
(población en edad de trabajar), pea (activos),
peao (ocupados), pead (desocupados).
Series con diseño
Para tendencias, podrías combinar varios periodos manteniendo el diseño en cada uno:
# Pobreza ponderada de la EH por año
anios <- c(2019, 2021, 2022, 2023, 2024)
do.call(rbind, lapply(anios, function(y) {
e <- diseno_eh(y, verbose = FALSE) |> summarise(p = survey_mean(pobre, na.rm = TRUE))
data.frame(anio = y, pobreza = e$p)
}))
# Desempleo ponderado de la ECE por trimestre
per <- catalogo_ece(anio = 2023)[, c("anio", "trimestre")]
do.call(rbind, lapply(seq_len(nrow(per)), function(i) {
e <- diseno_ece(per$anio[i], per$trimestre[i], verbose = FALSE) |>
summarise(td = survey_ratio(pead, pea, na.rm = TRUE))
data.frame(per[i, ], td = e$td)
}))Notas metodológicas
-
nest = TRUE: las UPM están anidadas dentro de estratos. -
survey.lonely.psu = "adjust": el paquete lo fija al cargarse (si no lo fijaste tú) para manejar estratos con una sola UPM sin romper la estimación de varianza (la opción se lee al calcular, no al construir el diseño). -
Desagregaciones: el INE recomienda evaluar el
coeficiente de variación (
vartype = "cv"); estimaciones de subgrupos pequeños pueden no ser significativas. - En la EH,
diseno_eh()trabaja sobre datos armonizados por defecto, así la sintaxis es estable entre años aunque el nombre del factor cambie en el origen.