Diseño muestral: estimaciones correctas (EH y ECE) • encuestasbo

Tanto la Encuesta de Hogares (EH) como la Encuesta Continua de Empleo (ECE) son muestras con diseño complejo: estratificadas y bietápicas (UPM dentro de estrato), con factores de expansión. Calcular medias o proporciones ignorando el diseño produce errores estándar incorrectos y, sin ponderar, también estimaciones puntuales sesgadas.

encuestasbo integra srvyr/survey. diseno_eh() y diseno_ece() devuelven un objeto de diseño listo (ids = upm, strata = estrato, pesos = factor de expansión, nest = TRUE), sobre el que se usa survey_mean(), survey_total(), survey_prop() o survey_ratio().

library(encuestasbo)
library(srvyr)
library(dplyr)

Encuesta de Hogares

# Diseño de la EH 2023 (pesos = factor de expansión anual)
des <- diseno_eh(2023)

# Tasa de pobreza nacional con intervalo de confianza
des |>
  summarise(pobreza = survey_mean(pobre, na.rm = TRUE, vartype = "ci"))
#> # A tibble: 1 × 3
#>   pobreza pobreza_low pobreza_upp
#>     <dbl>       <dbl>       <dbl>
#> 1   0.365       0.351       0.379

La estimación ponderada (~36.5 %) coincide con la cifra oficial del INE; la media sin ponderar difiere y no permite un intervalo de confianza válido.

# Desagregaciones: ingreso del hogar por área; pobreza por departamento
diseno_eh(2023) |>
  group_by(area) |>
  summarise(ingreso = survey_mean(ingreso_hogar, na.rm = TRUE, vartype = "ci"))

diseno_eh(2023) |>
  group_by(depto) |>
  summarise(pobreza = survey_mean(pobre, na.rm = TRUE, vartype = "cv"))

Encuesta Continua de Empleo

La ECE es trimestral y tiene dos factores de expansión distintos: trimestral y mensual. diseno_ece() usa el trimestral por defecto (el adecuado para estimaciones del trimestre).

# Diseño de la ECE 4T-2023 (factor trimestral)
dece <- diseno_ece(2023, trimestre = 4)

# Tasa de desempleo abierto (desocupados / activos) con IC
dece |>
  summarise(td = survey_ratio(pead, pea, na.rm = TRUE, vartype = "ci"))

# Población ocupada estimada (total) por área
dece |>
  group_by(area) |>
  summarise(ocupados = survey_total(peao, na.rm = TRUE))

# Para estimaciones de un mes concreto, usar el factor mensual
diseno_ece(2023, trimestre = 4, factor = "mensual") |>
  summarise(td = survey_ratio(pead, pea, na.rm = TRUE))

Variables de empleo (nombres nativos de la ECE): pet (población en edad de trabajar), pea (activos), peao (ocupados), pead (desocupados).

Series con diseño

Para tendencias, podrías combinar varios periodos manteniendo el diseño en cada uno:

# Pobreza ponderada de la EH por año
anios <- c(2019, 2021, 2022, 2023, 2024)
do.call(rbind, lapply(anios, function(y) {
  e <- diseno_eh(y, verbose = FALSE) |> summarise(p = survey_mean(pobre, na.rm = TRUE))
  data.frame(anio = y, pobreza = e$p)
}))

# Desempleo ponderado de la ECE por trimestre
per <- catalogo_ece(anio = 2023)[, c("anio", "trimestre")]
do.call(rbind, lapply(seq_len(nrow(per)), function(i) {
  e <- diseno_ece(per$anio[i], per$trimestre[i], verbose = FALSE) |>
    summarise(td = survey_ratio(pead, pea, na.rm = TRUE))
  data.frame(per[i, ], td = e$td)
}))

Notas metodológicas

nest = TRUE: las UPM están anidadas dentro de estratos.
survey.lonely.psu = "adjust": el paquete lo fija al cargarse (si no lo fijaste tú) para manejar estratos con una sola UPM sin romper la estimación de varianza (la opción se lee al calcular, no al construir el diseño).
Desagregaciones: el INE recomienda evaluar el coeficiente de variación (vartype = "cv"); estimaciones de subgrupos pequeños pueden no ser significativas.
En la EH, diseno_eh() trabaja sobre datos armonizados por defecto, así la sintaxis es estable entre años aunque el nombre del factor cambie en el origen.