Capa do Ebook gratuito Analista do IBGE: Estudo Avançado em Estatística, Geografia e Políticas Públicas

Analista do IBGE: Estudo Avançado em Estatística, Geografia e Políticas Públicas

Novo curso

15 páginas

Amostragem e metodologia de pesquisas do IBGE: desenho amostral e estimadores

Capítulo 5

Tempo estimado de leitura: 12 minutos

+ Exercício

Por que o desenho amostral importa nas pesquisas do IBGE

Pesquisas por amostragem (como inquéritos domiciliares) buscam inferir características de uma população a partir de uma parte dela. O ponto central é que o desenho amostral (como as unidades são selecionadas) determina: (i) quem pode ser inferido (população-alvo), (ii) o viés potencial (cobertura e não resposta) e (iii) a precisão (variâncias, intervalos e testes). Em desenhos complexos, a variância não segue a lógica de uma amostra aleatória simples; por isso, pesos e métodos de variância são parte do “motor” inferencial.

Elementos básicos: população-alvo, quadro e unidades amostrais

População-alvo

É o conjunto sobre o qual se deseja produzir estimativas. Em pesquisas domiciliares, costuma ser “pessoas residentes em domicílios particulares permanentes em determinada área e período”. Em cadastros administrativos, pode ser “vínculos formais ativos” ou “beneficiários elegíveis”. Definir população-alvo exige explicitar recortes geográficos, temporais e critérios de elegibilidade.

Quadro amostral (frame)

É a lista/estrutura operacional que permite selecionar unidades. Exemplos: cadastro de setores censitários e domicílios; cadastro de estabelecimentos; base administrativa de registros. Problemas típicos do quadro: subcobertura (unidades faltando), sobrecobertura (duplicidades/unidades fora do alvo) e desatualização (mudanças recentes não refletidas).

Unidades amostrais

  • Unidade de amostragem: o que é selecionado em cada etapa (ex.: setor censitário, domicílio, pessoa).
  • Unidade de observação: onde se mede a variável (ex.: pessoa para rendimento; domicílio para saneamento).
  • Unidade de análise: sobre quem se reporta o resultado (pode coincidir com a observação ou ser agregada).

Em desenhos multietápicos, é comum: UPA (unidade primária) = setor; USA (secundária) = domicílio; unidade final = pessoa elegível.

Técnicas de seleção: estratificação, conglomerados, sistemática, multietápica e PPS

Estratificação

Divide-se a população em estratos (subgrupos mutuamente exclusivos) e amostra-se dentro de cada estrato. Objetivos: (i) garantir representatividade de domínios (UF, RM, urbano/rural), (ii) aumentar precisão quando unidades dentro do estrato são mais homogêneas.

Continue em nosso aplicativo

Você poderá ouvir o audiobook com a tela desligada, ganhar gratuitamente o certificado deste curso e ainda ter acesso a outros 5.000 cursos online gratuitos.

ou continue lendo abaixo...
Download App

Baixar o aplicativo

Impacto na variância: tende a reduzir variância se os estratos forem internamente homogêneos e bem definidos. Também permite controle de tamanhos amostrais por domínio.

Conglomerados (cluster)

Seleciona-se grupos naturais (ex.: setores, quarteirões) e observa-se unidades dentro deles. É comum por custo/logística (entrevistas concentradas). Porém, unidades no mesmo conglomerado tendem a ser semelhantes, elevando a variância.

Impacto na variância: aumenta a variância em relação à amostra aleatória simples quando há correlação intraclasse. Esse aumento é capturado pelo efeito do desenho (deff).

Amostragem sistemática

Ordena-se o quadro e seleciona-se uma unidade a cada intervalo fixo k após um início aleatório. É eficiente operacionalmente e pode melhorar precisão se a ordenação estiver relacionada à variável de interesse (sem periodicidades problemáticas).

Passo a passo prático (sistemática):

  • Defina N (tamanho do quadro) e n (tamanho da amostra).
  • Calcule k = N/n.
  • Sorteie um início r uniforme em {1,2,...,k}.
  • Selecione r, r+k, r+2k, ... até obter n unidades.

Amostragem multietápica

Seleciona unidades em etapas (ex.: setores → domicílios → pessoas). Reduz custos, mas exige cálculo correto de probabilidades de inclusão e variâncias sob desenho complexo.

Exemplo típico domiciliar: (1) selecionar setores (UPAs) com PPS; (2) listar domicílios no setor; (3) selecionar domicílios por sistemática; (4) entrevistar todos os moradores ou subamostrar pessoas.

PPS (probabilidade proporcional ao tamanho)

UPAs são selecionadas com probabilidade proporcional a uma medida de tamanho M (ex.: número de domicílios). Isso equaliza, em muitos casos, a probabilidade final de seleção de domicílios quando se seleciona um número fixo de domicílios por UPA.

Ideia-chave: se setores maiores têm maior chance de entrar, e depois seleciona-se o mesmo número de domicílios em cada setor selecionado, a seleção final pode se aproximar de “auto-ponderada” (pesos mais uniformes), o que ajuda na eficiência.

Probabilidades de inclusão e pesos amostrais

Probabilidade de inclusão

Para uma unidade final i, a probabilidade de inclusão π_i é a chance de ela estar na amostra considerando todas as etapas. Em multietápica, frequentemente π_i é o produto das probabilidades condicionais por etapa.

π_i = π(UPA selecionada) × π(domicílio | UPA) × π(pessoa | domicílio)

Peso básico (peso de desenho)

O peso básico é o inverso da probabilidade de inclusão:

w_i = 1/π_i

Interpretação: quantas unidades da população aquela observação “representa” sob o desenho.

Ajustes por não resposta

Quando há não resposta, ajusta-se o peso para compensar perdas, geralmente dentro de classes homogêneas (por exemplo, estrato × tipo de área × faixa de renda aproximada). Um ajuste simples por classe g:

w_i^NR = w_i × (n_g / r_g)

onde n_g é o número selecionado na classe e r_g o número respondente.

Calibração e pós-estratificação

Calibração ajusta pesos para que totais estimados de variáveis auxiliares coincidam com totais conhecidos (por exemplo, projeções populacionais por sexo e idade, totais administrativos). Pós-estratificação é um caso particular em que se ajusta para bater margens em pós-estratos (ex.: UF × sexo × faixa etária).

Por que isso importa: reduz viés por cobertura/não resposta e pode reduzir variância quando auxiliares são correlacionadas com as variáveis de interesse.

Passo a passo prático (pós-estratificação):

  • Defina pós-estratos (ex.: sexo × idade × UF) com totais populacionais conhecidos N_h.
  • Calcule o total ponderado da amostra em cada pós-estrato: \hat{N}_h = Σ_{i∈s_h} w_i.
  • Aplique fator de ajuste: g_h = N_h / \hat{N}_h.
  • Atualize pesos: w_i^* = w_i × g_h para i no pós-estrato h.

Erros amostrais e não amostrais: onde nascem os problemas

Erro amostral

Variação aleatória por observar apenas uma amostra. É quantificado por variâncias, erros-padrão, intervalos e testes sob o desenho.

Erros não amostrais

  • Cobertura: unidades do alvo fora do quadro (subcobertura) ou unidades indevidas no quadro (sobrecobertura).
  • Não resposta: recusa, ausência, impossibilidade de contato; pode ser diferencial (associada à variável).
  • Mensuração: erro de resposta, efeito do entrevistador, recordação, questionário mal desenhado.
  • Processamento: codificação, crítica, imputação, vinculação de registros.

Em pesquisas domiciliares, mensuração e não resposta costumam ser centrais (renda, ocupação, informalidade). Em cadastros administrativos, cobertura e definição de elegibilidade são críticas (duplicidades, atrasos de registro, mudanças de regra).

Efeito do desenho (deff) e implicações para precisão

O deff compara a variância sob o desenho complexo com a variância sob amostra aleatória simples (AAS) de mesmo tamanho:

deff = Var_complexo(θ̂) / Var_AAS(θ̂)
  • deff > 1: perda de eficiência (comum com conglomerados).
  • deff < 1: ganho de eficiência (pode ocorrer com estratificação bem feita e calibração).

Uma aproximação útil em conglomerados com tamanho médio m e correlação intraclasse ρ:

deff ≈ 1 + (m - 1)ρ

Isso mostra por que aumentar muito o número de entrevistas por setor pode piorar a precisão: cresce m, e a semelhança dentro do setor (ρ) amplifica a variância.

Estimadores usuais sob pesos: totais, médias e proporções

Total (Horvitz–Thompson)

Para variável y na unidade final:

Ŷ = Σ_{i∈s} w_i y_i

Exemplo: total de pessoas ocupadas no trimestre em um domínio geográfico, usando pesos finais calibrados.

Média

Estimador razão (muito usado):

ȳ = (Σ w_i y_i) / (Σ w_i)

Exemplo: rendimento médio domiciliar per capita (com cuidado para definição da unidade e do denominador).

Proporção

Para indicador binário d_i (1 se possui característica, 0 caso contrário):

p̂ = (Σ w_i d_i) / (Σ w_i)

Exemplo: proporção de domicílios com acesso à rede de esgoto.

Variâncias aproximadas e inferência sob desenho complexo

Em desenho complexo, a variância depende de estratos, conglomerados e pesos. Na prática, usa-se um método de estimação de variância compatível com o plano: linearização de Taylor, replicação (BRR, jackknife, bootstrap) ou PSU/estrato com fórmulas específicas.

Aproximação simples para proporção (intuição)

Como referência, sob AAS:

Var_AAS(p̂) ≈ (1 - f) × p(1-p) / (n - 1)

onde f = n/N é a fração amostral. Em desenho complexo, uma heurística é inflar por deff:

Var_complexo(p̂) ≈ deff × Var_AAS(p̂)

Isso não substitui o cálculo por estratos/PSUs, mas ajuda a planejar tamanho de amostra e interpretar perdas de eficiência.

Intervalos e testes com desenho

Uma forma operacional é usar o erro-padrão estimado sob o desenho (SE_design) e construir intervalos:

IC ≈ estimativa ± t_{gl, 1-α/2} × SE_design

Os graus de liberdade (gl) costumam estar ligados ao número de PSUs menos o número de estratos (aproximação de Satterthwaite/“survey df”). Para testes (diferença de médias/proporções, regressões com pesos), usa-se estatística baseada em variância robusta ao desenho (Wald ajustado, Rao–Scott para tabelas, etc.). O ponto essencial é: não usar fórmulas de AAS ignorando estratos e conglomerados, pois isso subestima erros-padrão quando há clusterização.

Planejamento amostral: tamanho de amostra e alocação

Tamanho de amostra para proporção com deff

Para planejar uma proporção com margem de erro E (semi-amplitude) e nível de confiança aproximado via z:

n_AAS ≈ z^2 p(1-p) / E^2

Com desenho complexo, ajuste por deff:

n ≈ deff × n_AAS

Se houver correção para população finita (quando n não é desprezível frente a N), pode-se aplicar ajuste posterior.

Alocação por estratos

Com estratos, decide-se n_h em cada estrato h.

  • Alocação proporcional: n_h = n × (N_h/N). Simples e comum quando custos e variâncias são semelhantes.
  • Alocação ótima (Neyman): n_h ∝ N_h S_h, onde S_h é o desvio-padrão da variável (ou proxy). Melhora precisão quando variabilidade difere entre estratos.

Passo a passo prático (alocação proporcional):

  • Obtenha N_h (tamanho do estrato no quadro).
  • Defina n total viável (orçamento/logística).
  • Calcule n_h e arredonde garantindo soma n.
  • Defina mínimo por domínio se houver necessidade de divulgação.

Situações típicas: questionários domiciliares e cadastros administrativos

Pesquisa domiciliar: seleção e implicações

  • UPA (setor) com PPS usando medida de tamanho (domicílios): reduz variação de pesos.
  • Listagem/atualização de domicílios no setor antes da seleção: melhora cobertura.
  • Subamostragem de pessoas (quando aplicável): exige probabilidade adicional e ajuste de peso.
  • Não resposta: costuma exigir ajuste por classes e calibração com totais demográficos.
  • Mensuração: perguntas sensíveis (renda), períodos de referência e conceitos (ocupação) afetam comparabilidade.

Cadastro administrativo: quadro, cobertura e vinculação

  • Unidade pode ser registro (pessoa, vínculo, empresa). Duplicidades e chaves inconsistentes afetam cobertura.
  • Elegibilidade: regras mudam; é preciso versionar critérios e documentar.
  • Subcobertura estrutural: informalidade, não registro, atrasos de atualização.
  • Mensuração: variáveis podem ser “por regra” e não por observação direta (ex.: renda declarada vs. renda efetiva).
  • Integração: linkage probabilístico/determinístico introduz erros de pareamento que afetam estimativas.

Exercícios aplicados

1) Tamanho de amostra para proporção com deff

Você quer estimar uma proporção com margem de erro E = 0,02 (2 p.p.) e confiança aproximada de 95% (z = 1,96). Use cenário conservador p = 0,5. O desenho tem deff = 1,8.

Calcule:

n_AAS ≈ (1,96^2 × 0,5×0,5) / 0,02^2
n ≈ 1,8 × n_AAS

Perguntas:

  • Qual o n aproximado?
  • Se você reduzir o número de entrevistas por conglomerado (diminuindo m), o que tende a acontecer com o deff?

2) Alocação proporcional em estratos

Uma pesquisa tem n = 1.200 entrevistas e três estratos com tamanhos no quadro: N1=50.000, N2=30.000, N3=20.000.

Tarefa: aloque proporcionalmente e informe n1, n2, n3.

n_h = 1200 × (N_h / 100.000)

Extensão: se o estrato 3 for um domínio de divulgação obrigatória com mínimo de 400 entrevistas, como você redistribui mantendo n total?

3) Interpretação de pesos e estimativa de total

Em um domínio, três observações têm pesos finais w = (120, 80, 200). A variável y indica “desempregado” (1=sim, 0=não): y = (1, 0, 1).

Calcule:

  • Estimativa do total de desempregados: Ŷ = Σ w_i y_i.
  • Estimativa da proporção de desempregados no domínio: p̂ = (Σ w_i y_i)/(Σ w_i).

Interprete: o que significa a primeira observação ter peso 120? Dê um exemplo de por que pesos podem variar (PPS, não resposta, calibração).

4) Probabilidade de inclusão em desenho em duas etapas

Considere: (1) selecionam-se setores com probabilidade π1; (2) dentro de cada setor selecionado, selecionam-se m domicílios por sistemática de uma lista de D domicílios, então π2 = m/D. Para um domicílio específico:

π = π1 × (m/D)

Tarefa: se π1 = 0,10, D = 200 e m = 20, calcule π e o peso básico w = 1/π. Discuta como D desatualizado (cobertura) pode afetar o peso e o viés.

5) Erros de mensuração em questionário domiciliar

Em um questionário, “rendimento do trabalho” tem alta taxa de não resposta e respostas heaped (arredondadas). Proponha:

  • Uma estratégia de melhoria de mensuração (ex.: perguntas em faixas, checagens, período de referência).
  • Uma estratégia de tratamento estatístico (ex.: imputação e calibração com totais auxiliares), indicando o risco de viés se a não resposta for diferencial.

Agora responda o exercício sobre o conteúdo:

Em um plano amostral complexo com seleção por conglomerados, por que não é adequado usar diretamente as fórmulas de variância da amostra aleatória simples (AAS) para construir intervalos de confiança?

Você acertou! Parabéns, agora siga para a próxima página

Você errou! Tente novamente.

Em conglomerados há correlação intraclasse, o que pode elevar a variância e gerar deff > 1. Usar fórmulas de AAS ignorando estratos e PSUs costuma subestimar o erro-padrão, produzindo intervalos de confiança estreitos demais.

Próximo capitúlo

Qualidade de dados e análise de dados para Analista do IBGE: tratamento, consistência e imputação

Arrow Right Icon
Baixe o app para ganhar Certificação grátis e ouvir os cursos em background, mesmo com a tela desligada.