Por que o desenho amostral importa nas pesquisas do IBGE
Pesquisas por amostragem (como inquéritos domiciliares) buscam inferir características de uma população a partir de uma parte dela. O ponto central é que o desenho amostral (como as unidades são selecionadas) determina: (i) quem pode ser inferido (população-alvo), (ii) o viés potencial (cobertura e não resposta) e (iii) a precisão (variâncias, intervalos e testes). Em desenhos complexos, a variância não segue a lógica de uma amostra aleatória simples; por isso, pesos e métodos de variância são parte do “motor” inferencial.
Elementos básicos: população-alvo, quadro e unidades amostrais
População-alvo
É o conjunto sobre o qual se deseja produzir estimativas. Em pesquisas domiciliares, costuma ser “pessoas residentes em domicílios particulares permanentes em determinada área e período”. Em cadastros administrativos, pode ser “vínculos formais ativos” ou “beneficiários elegíveis”. Definir população-alvo exige explicitar recortes geográficos, temporais e critérios de elegibilidade.
Quadro amostral (frame)
É a lista/estrutura operacional que permite selecionar unidades. Exemplos: cadastro de setores censitários e domicílios; cadastro de estabelecimentos; base administrativa de registros. Problemas típicos do quadro: subcobertura (unidades faltando), sobrecobertura (duplicidades/unidades fora do alvo) e desatualização (mudanças recentes não refletidas).
Unidades amostrais
- Unidade de amostragem: o que é selecionado em cada etapa (ex.: setor censitário, domicílio, pessoa).
- Unidade de observação: onde se mede a variável (ex.: pessoa para rendimento; domicílio para saneamento).
- Unidade de análise: sobre quem se reporta o resultado (pode coincidir com a observação ou ser agregada).
Em desenhos multietápicos, é comum: UPA (unidade primária) = setor; USA (secundária) = domicílio; unidade final = pessoa elegível.
Técnicas de seleção: estratificação, conglomerados, sistemática, multietápica e PPS
Estratificação
Divide-se a população em estratos (subgrupos mutuamente exclusivos) e amostra-se dentro de cada estrato. Objetivos: (i) garantir representatividade de domínios (UF, RM, urbano/rural), (ii) aumentar precisão quando unidades dentro do estrato são mais homogêneas.
Continue em nosso aplicativo
Você poderá ouvir o audiobook com a tela desligada, ganhar gratuitamente o certificado deste curso e ainda ter acesso a outros 5.000 cursos online gratuitos.
ou continue lendo abaixo...Baixar o aplicativo
Impacto na variância: tende a reduzir variância se os estratos forem internamente homogêneos e bem definidos. Também permite controle de tamanhos amostrais por domínio.
Conglomerados (cluster)
Seleciona-se grupos naturais (ex.: setores, quarteirões) e observa-se unidades dentro deles. É comum por custo/logística (entrevistas concentradas). Porém, unidades no mesmo conglomerado tendem a ser semelhantes, elevando a variância.
Impacto na variância: aumenta a variância em relação à amostra aleatória simples quando há correlação intraclasse. Esse aumento é capturado pelo efeito do desenho (deff).
Amostragem sistemática
Ordena-se o quadro e seleciona-se uma unidade a cada intervalo fixo k após um início aleatório. É eficiente operacionalmente e pode melhorar precisão se a ordenação estiver relacionada à variável de interesse (sem periodicidades problemáticas).
Passo a passo prático (sistemática):
- Defina
N(tamanho do quadro) en(tamanho da amostra). - Calcule
k = N/n. - Sorteie um início
runiforme em{1,2,...,k}. - Selecione
r, r+k, r+2k, ...até obternunidades.
Amostragem multietápica
Seleciona unidades em etapas (ex.: setores → domicílios → pessoas). Reduz custos, mas exige cálculo correto de probabilidades de inclusão e variâncias sob desenho complexo.
Exemplo típico domiciliar: (1) selecionar setores (UPAs) com PPS; (2) listar domicílios no setor; (3) selecionar domicílios por sistemática; (4) entrevistar todos os moradores ou subamostrar pessoas.
PPS (probabilidade proporcional ao tamanho)
UPAs são selecionadas com probabilidade proporcional a uma medida de tamanho M (ex.: número de domicílios). Isso equaliza, em muitos casos, a probabilidade final de seleção de domicílios quando se seleciona um número fixo de domicílios por UPA.
Ideia-chave: se setores maiores têm maior chance de entrar, e depois seleciona-se o mesmo número de domicílios em cada setor selecionado, a seleção final pode se aproximar de “auto-ponderada” (pesos mais uniformes), o que ajuda na eficiência.
Probabilidades de inclusão e pesos amostrais
Probabilidade de inclusão
Para uma unidade final i, a probabilidade de inclusão π_i é a chance de ela estar na amostra considerando todas as etapas. Em multietápica, frequentemente π_i é o produto das probabilidades condicionais por etapa.
π_i = π(UPA selecionada) × π(domicílio | UPA) × π(pessoa | domicílio)Peso básico (peso de desenho)
O peso básico é o inverso da probabilidade de inclusão:
w_i = 1/π_iInterpretação: quantas unidades da população aquela observação “representa” sob o desenho.
Ajustes por não resposta
Quando há não resposta, ajusta-se o peso para compensar perdas, geralmente dentro de classes homogêneas (por exemplo, estrato × tipo de área × faixa de renda aproximada). Um ajuste simples por classe g:
w_i^NR = w_i × (n_g / r_g)onde n_g é o número selecionado na classe e r_g o número respondente.
Calibração e pós-estratificação
Calibração ajusta pesos para que totais estimados de variáveis auxiliares coincidam com totais conhecidos (por exemplo, projeções populacionais por sexo e idade, totais administrativos). Pós-estratificação é um caso particular em que se ajusta para bater margens em pós-estratos (ex.: UF × sexo × faixa etária).
Por que isso importa: reduz viés por cobertura/não resposta e pode reduzir variância quando auxiliares são correlacionadas com as variáveis de interesse.
Passo a passo prático (pós-estratificação):
- Defina pós-estratos (ex.: sexo × idade × UF) com totais populacionais conhecidos
N_h. - Calcule o total ponderado da amostra em cada pós-estrato:
\hat{N}_h = Σ_{i∈s_h} w_i. - Aplique fator de ajuste:
g_h = N_h / \hat{N}_h. - Atualize pesos:
w_i^* = w_i × g_hparaino pós-estratoh.
Erros amostrais e não amostrais: onde nascem os problemas
Erro amostral
Variação aleatória por observar apenas uma amostra. É quantificado por variâncias, erros-padrão, intervalos e testes sob o desenho.
Erros não amostrais
- Cobertura: unidades do alvo fora do quadro (subcobertura) ou unidades indevidas no quadro (sobrecobertura).
- Não resposta: recusa, ausência, impossibilidade de contato; pode ser diferencial (associada à variável).
- Mensuração: erro de resposta, efeito do entrevistador, recordação, questionário mal desenhado.
- Processamento: codificação, crítica, imputação, vinculação de registros.
Em pesquisas domiciliares, mensuração e não resposta costumam ser centrais (renda, ocupação, informalidade). Em cadastros administrativos, cobertura e definição de elegibilidade são críticas (duplicidades, atrasos de registro, mudanças de regra).
Efeito do desenho (deff) e implicações para precisão
O deff compara a variância sob o desenho complexo com a variância sob amostra aleatória simples (AAS) de mesmo tamanho:
deff = Var_complexo(θ̂) / Var_AAS(θ̂)- deff > 1: perda de eficiência (comum com conglomerados).
- deff < 1: ganho de eficiência (pode ocorrer com estratificação bem feita e calibração).
Uma aproximação útil em conglomerados com tamanho médio m e correlação intraclasse ρ:
deff ≈ 1 + (m - 1)ρIsso mostra por que aumentar muito o número de entrevistas por setor pode piorar a precisão: cresce m, e a semelhança dentro do setor (ρ) amplifica a variância.
Estimadores usuais sob pesos: totais, médias e proporções
Total (Horvitz–Thompson)
Para variável y na unidade final:
Ŷ = Σ_{i∈s} w_i y_iExemplo: total de pessoas ocupadas no trimestre em um domínio geográfico, usando pesos finais calibrados.
Média
Estimador razão (muito usado):
ȳ = (Σ w_i y_i) / (Σ w_i)Exemplo: rendimento médio domiciliar per capita (com cuidado para definição da unidade e do denominador).
Proporção
Para indicador binário d_i (1 se possui característica, 0 caso contrário):
p̂ = (Σ w_i d_i) / (Σ w_i)Exemplo: proporção de domicílios com acesso à rede de esgoto.
Variâncias aproximadas e inferência sob desenho complexo
Em desenho complexo, a variância depende de estratos, conglomerados e pesos. Na prática, usa-se um método de estimação de variância compatível com o plano: linearização de Taylor, replicação (BRR, jackknife, bootstrap) ou PSU/estrato com fórmulas específicas.
Aproximação simples para proporção (intuição)
Como referência, sob AAS:
Var_AAS(p̂) ≈ (1 - f) × p(1-p) / (n - 1)onde f = n/N é a fração amostral. Em desenho complexo, uma heurística é inflar por deff:
Var_complexo(p̂) ≈ deff × Var_AAS(p̂)Isso não substitui o cálculo por estratos/PSUs, mas ajuda a planejar tamanho de amostra e interpretar perdas de eficiência.
Intervalos e testes com desenho
Uma forma operacional é usar o erro-padrão estimado sob o desenho (SE_design) e construir intervalos:
IC ≈ estimativa ± t_{gl, 1-α/2} × SE_designOs graus de liberdade (gl) costumam estar ligados ao número de PSUs menos o número de estratos (aproximação de Satterthwaite/“survey df”). Para testes (diferença de médias/proporções, regressões com pesos), usa-se estatística baseada em variância robusta ao desenho (Wald ajustado, Rao–Scott para tabelas, etc.). O ponto essencial é: não usar fórmulas de AAS ignorando estratos e conglomerados, pois isso subestima erros-padrão quando há clusterização.
Planejamento amostral: tamanho de amostra e alocação
Tamanho de amostra para proporção com deff
Para planejar uma proporção com margem de erro E (semi-amplitude) e nível de confiança aproximado via z:
n_AAS ≈ z^2 p(1-p) / E^2Com desenho complexo, ajuste por deff:
n ≈ deff × n_AASSe houver correção para população finita (quando n não é desprezível frente a N), pode-se aplicar ajuste posterior.
Alocação por estratos
Com estratos, decide-se n_h em cada estrato h.
- Alocação proporcional:
n_h = n × (N_h/N). Simples e comum quando custos e variâncias são semelhantes. - Alocação ótima (Neyman):
n_h ∝ N_h S_h, ondeS_hé o desvio-padrão da variável (ou proxy). Melhora precisão quando variabilidade difere entre estratos.
Passo a passo prático (alocação proporcional):
- Obtenha
N_h(tamanho do estrato no quadro). - Defina
ntotal viável (orçamento/logística). - Calcule
n_he arredonde garantindo soman. - Defina mínimo por domínio se houver necessidade de divulgação.
Situações típicas: questionários domiciliares e cadastros administrativos
Pesquisa domiciliar: seleção e implicações
- UPA (setor) com PPS usando medida de tamanho (domicílios): reduz variação de pesos.
- Listagem/atualização de domicílios no setor antes da seleção: melhora cobertura.
- Subamostragem de pessoas (quando aplicável): exige probabilidade adicional e ajuste de peso.
- Não resposta: costuma exigir ajuste por classes e calibração com totais demográficos.
- Mensuração: perguntas sensíveis (renda), períodos de referência e conceitos (ocupação) afetam comparabilidade.
Cadastro administrativo: quadro, cobertura e vinculação
- Unidade pode ser registro (pessoa, vínculo, empresa). Duplicidades e chaves inconsistentes afetam cobertura.
- Elegibilidade: regras mudam; é preciso versionar critérios e documentar.
- Subcobertura estrutural: informalidade, não registro, atrasos de atualização.
- Mensuração: variáveis podem ser “por regra” e não por observação direta (ex.: renda declarada vs. renda efetiva).
- Integração: linkage probabilístico/determinístico introduz erros de pareamento que afetam estimativas.
Exercícios aplicados
1) Tamanho de amostra para proporção com deff
Você quer estimar uma proporção com margem de erro E = 0,02 (2 p.p.) e confiança aproximada de 95% (z = 1,96). Use cenário conservador p = 0,5. O desenho tem deff = 1,8.
Calcule:
n_AAS ≈ (1,96^2 × 0,5×0,5) / 0,02^2n ≈ 1,8 × n_AASPerguntas:
- Qual o
naproximado? - Se você reduzir o número de entrevistas por conglomerado (diminuindo
m), o que tende a acontecer com o deff?
2) Alocação proporcional em estratos
Uma pesquisa tem n = 1.200 entrevistas e três estratos com tamanhos no quadro: N1=50.000, N2=30.000, N3=20.000.
Tarefa: aloque proporcionalmente e informe n1, n2, n3.
n_h = 1200 × (N_h / 100.000)Extensão: se o estrato 3 for um domínio de divulgação obrigatória com mínimo de 400 entrevistas, como você redistribui mantendo n total?
3) Interpretação de pesos e estimativa de total
Em um domínio, três observações têm pesos finais w = (120, 80, 200). A variável y indica “desempregado” (1=sim, 0=não): y = (1, 0, 1).
Calcule:
- Estimativa do total de desempregados:
Ŷ = Σ w_i y_i. - Estimativa da proporção de desempregados no domínio:
p̂ = (Σ w_i y_i)/(Σ w_i).
Interprete: o que significa a primeira observação ter peso 120? Dê um exemplo de por que pesos podem variar (PPS, não resposta, calibração).
4) Probabilidade de inclusão em desenho em duas etapas
Considere: (1) selecionam-se setores com probabilidade π1; (2) dentro de cada setor selecionado, selecionam-se m domicílios por sistemática de uma lista de D domicílios, então π2 = m/D. Para um domicílio específico:
π = π1 × (m/D)Tarefa: se π1 = 0,10, D = 200 e m = 20, calcule π e o peso básico w = 1/π. Discuta como D desatualizado (cobertura) pode afetar o peso e o viés.
5) Erros de mensuração em questionário domiciliar
Em um questionário, “rendimento do trabalho” tem alta taxa de não resposta e respostas heaped (arredondadas). Proponha:
- Uma estratégia de melhoria de mensuração (ex.: perguntas em faixas, checagens, período de referência).
- Uma estratégia de tratamento estatístico (ex.: imputação e calibração com totais auxiliares), indicando o risco de viés se a não resposta for diferencial.