Todos os cursos > Concursos > IBGE ::

Qualidade de dados e análise de dados para Analista do IBGE: tratamento, consistência e imputação

Capítulo 6

Tempo estimado de leitura: 14 minutos

Fluxo de preparação de dados em pesquisas oficiais

Em pesquisas oficiais, “qualidade de dados” é a capacidade de uma base sustentar estimativas e indicadores com rastreabilidade, coerência e comparabilidade. Na prática, isso significa controlar erros de coleta, digitação, integração e processamento, reduzindo vieses e evitando que decisões de tratamento distorçam níveis, distribuições e relações entre variáveis.

Um fluxo recomendado para preparação de dados (microdados) voltado a produção estatística inclui: (1) ingestão e padronização inicial, (2) checagens estruturais, (3) limpeza (faltantes, duplicidades, inconsistências), (4) validação e auditoria, (5) tratamento de outliers, (6) imputação, (7) harmonização de variáveis e derivação de indicadores, (8) documentação, logs e versionamento.

Ingestão, padronização inicial e checagens estruturais

Objetivo

Garantir que o arquivo recebido está íntegro, com tipos corretos, chaves definidas e metadados mínimos para rastrear origem e transformações.

Passo a passo prático

Congelar a entrada: salvar o arquivo bruto (raw) como “somente leitura” e registrar hash (ex.: SHA-256) para detectar alterações.
Definir dicionário: nomes de variáveis, tipos (numérico, categórico, data), domínios válidos, unidades, regras de consistência e chaves (ID domicílio, ID pessoa, etc.).
Continue em nosso aplicativo e ...
- Ouça o áudio com a tela desligada
- Ganhe Certificado após a conclusão
- + de 5000 cursos para você explorar!
ou continue lendo abaixo...
Baixar o aplicativo
Checagens estruturais: contagem de registros, unicidade de chaves, presença de variáveis obrigatórias, codificação (UTF-8), separadores decimais, datas válidas.
Padronização inicial: normalizar nomes (snake_case), padronizar categorias de “não resposta” (ex.: 9, 99, 999) para códigos explícitos e/ou NA, e padronizar formatos de data e unidades.

# Exemplo de checklist (pseudo-código orientado a auditoria) 1) assert n_rows > 0 2) assert unique(id_pessoa) 3) assert all(required_vars in columns) 4) assert encoding == 'utf-8' 5) assert parse_dates_ok(data_nasc) 6) log(summary_types, missing_rates)

Limpeza: valores faltantes, duplicidades e inconsistências lógicas

Valores faltantes: distinguir tipos de ausência

Em pesquisas, “faltante” não é um único fenômeno. É essencial separar: (a) não aplicável (skip pattern), (b) recusa, (c) não sabe, (d) perda operacional (não coletado), (e) erro de processamento. Essa distinção orienta imputação, indicadores de qualidade e interpretação.

Passo a passo prático para faltantes

Mapear códigos: converter códigos especiais para categorias explícitas (ex.: “Recusa”, “NS/NR”) ou NA conforme a política de tratamento.
Medir padrões: taxa de faltantes por variável, por domínio (UF, estrato, tipo de domicílio), e por bloco do questionário.
Checar coerência com saltos: faltante pode ser correto se a pergunta não se aplica.
Decidir estratégia: manter como categoria (quando informativo), imputar (quando necessário para estimativas), ou excluir (quando justificável e documentado).

Duplicidades: registros repetidos e chaves

Duplicidade pode ocorrer por reenvio de coleta, integração de arquivos ou falhas de chave. O risco é inflar totais e distorcer distribuições.

Passo a passo prático para duplicidades

Definir chave: uma chave natural (ID domicílio + ID pessoa + data) ou chave técnica.
Detectar: listar chaves repetidas e medir proporção.
Classificar: duplicata exata (todas as colunas iguais) vs. duplicata conflitante (diferenças em variáveis).
Resolver: regras determinísticas (ex.: manter registro mais recente, maior completude, ou fonte prioritária). Em conflitos, abrir trilha de auditoria e, se necessário, encaminhar para crítica manual.

Inconsistências lógicas: regras internas do questionário

São violações de relações esperadas entre variáveis. Exemplos típicos: idade incompatível com data de nascimento; pessoa com “ocupado” mas sem horas trabalhadas; criança com nível de instrução incompatível; renda negativa; domicílio “sem banheiro” mas com “tipo de esgotamento”.

Passo a passo prático para inconsistências

Especificar regras em linguagem clara e testável (ver seção de validação).
Rodar crítica automática: gerar lista de casos e taxa de erro por regra.
Priorizar: regras que afetam variáveis-chave e indicadores oficiais.
Tratar: corrigir via regra (quando inequívoco), imputar variável derivada, ou marcar para revisão.

Regras de validação: como transformar o questionário em testes

Tipos de validação

Domínio: valores permitidos (ex.: sexo ∈ {1,2}; UF ∈ {11..53}).
Intervalo: limites plausíveis (ex.: idade 0–120; horas 0–112).
Consistência cruzada: relações entre variáveis (ex.: se “não frequenta escola” então “série” deve ser NA).
Consistência temporal: datas em ordem (ex.: data_entrevista ≥ data_nasc).
Unicidade: chaves sem repetição.
Integridade referencial: códigos presentes em tabelas de referência (ex.: CBO, CNAE, códigos territoriais).

Modelo de especificação de regra

Uma regra bem definida deve conter: nome, descrição, variáveis envolvidas, condição de disparo, severidade (erro/alerta), ação recomendada e justificativa.

# Exemplo (pseudo-especificação) REGRA: R_IDADE_ESCOLA DESCRIÇÃO: Crianças abaixo de 4 anos não devem ter série/ano informado CONDIÇÃO: idade < 4 AND serie_ano not in {NA, 'NAO_APLICAVEL'} SEVERIDADE: alerta AÇÃO: set serie_ano = NAO_APLICAVEL (se confirmado) / encaminhar para crítica

Auditoria e documentação: rastreabilidade do processamento

Auditoria (o que medir e registrar)

Indicadores de qualidade: taxas de faltantes por variável, taxas de inconsistência por regra, proporção de duplicatas, proporção de outliers sinalizados, percentual imputado por variável e por domínio.
Comparações antes/depois: distribuições marginais, quantis, totais por grupos, e estabilidade de indicadores sensíveis.
Trilhas de decisão: para cada etapa, registrar parâmetros, data/hora, versão do script, e responsável.

Documentação mínima recomendada

Dicionário de dados (variável, tipo, domínio, unidade, descrição, origem).
Plano de crítica e imputação (regras, métodos, critérios de escolha).
Relatório de processamento (o que mudou, quantos registros afetados, impactos).
Metadados de versões (tags, changelog, hash de entradas/saídas).

Padronização e harmonização de variáveis

Por que harmonizar

Pesquisas oficiais frequentemente integram séries temporais, mudanças de questionário e classificações (ocupação, atividade econômica, escolaridade, território). Harmonização evita “quebras” artificiais e garante comparabilidade.

Principais frentes

Classificações: mapear códigos antigos para novos (crosswalk), documentando perdas de detalhe e casos ambíguos.
Unidades de medida: padronizar (ex.: renda mensal vs. semanal; área em m² vs. hectares), registrando conversões.
Categorias textuais: normalizar grafias e acentos, e aplicar tabelas de correspondência para respostas abertas codificadas.
Variáveis derivadas: definir fórmulas estáveis (ex.: idade calculada na data de referência) e congelar a data de referência.

Passo a passo prático de harmonização

Inventariar versões: identificar em quais períodos/UFs houve mudança de codificação.
Criar tabela de mapeamento: código_origem → código_destino, com flag de “mapeamento 1:1” vs “muitos:1”.
Aplicar e auditar: medir quantos casos caíram em “sem correspondência” e tratar exceções.
Registrar: guardar a tabela de mapeamento como artefato versionado.

Detecção de outliers e tratamento (winsorização)

O que é outlier no contexto oficial

Outlier é um valor extremo que pode ser: (a) erro (digitação, unidade errada), (b) caso raro verdadeiro, (c) mudança estrutural local. Em estatísticas oficiais, o objetivo não é “remover extremos” automaticamente, mas reduzir impacto indevido de erros e garantir coerência.

Detecção univariada

Regras de plausibilidade: limites absolutos (ex.: renda < 0 é inválida).
Quantis: sinalizar acima de P99.5 ou abaixo de P0.5 (ajustar por domínio).
IQR: valores fora de [Q1 − k·IQR, Q3 + k·IQR] (k típico 1.5 ou 3), com cautela em distribuições assimétricas.
Z-score robusto: usando mediana e MAD para reduzir sensibilidade a extremos.

Detecção multivariada

Útil quando o valor é plausível isoladamente, mas incoerente com outras variáveis (ex.: renda muito alta com ocupação e escolaridade incompatíveis, ou consumo de energia incompatível com número de moradores).

Distância robusta (ex.: Mahalanobis robusta) em subconjunto de variáveis numéricas padronizadas.
Modelos de detecção (ex.: Isolation Forest) como ferramenta de triagem, sempre com auditoria e explicabilidade.
Regras condicionais: limites por grupos (ex.: renda por ocupação/UF; área por tipo de estabelecimento).

Winsorização: quando e como

Winsorizar é substituir valores extremos por um limite (cap) definido (ex.: P99). É uma alternativa à exclusão e pode estabilizar estimativas, mas altera distribuição e pode reduzir variância aparente.

Passo a passo prático de winsorização

Definir domínio: aplicar caps por estratos/grupos relevantes (UF, setor, área urbana/rural) para evitar distorções.
Escolher limites: quantis (P1/P99) ou limites baseados em regras substantivas.
Marcar flag: criar variável indicadora “winsorizado=1”.
Avaliar impacto: comparar totais e quantis antes/depois; verificar se casos eram erros ou extremos reais.

Imputação: técnicas e efeitos em variâncias e interpretações

Conceitos essenciais

Imputação é o preenchimento de valores faltantes com valores plausíveis, preservando relações estatísticas e permitindo cálculo de indicadores. A escolha depende do tipo de variável, do mecanismo de ausência e do objetivo analítico.

Três mecanismos de ausência orientam a estratégia: MCAR (faltante completamente ao acaso), MAR (ao acaso condicional a observáveis), MNAR (não ao acaso; depende do valor não observado). Em produção oficial, muitas ausências são MAR (relacionadas a perfil, local, bloco do questionário) e algumas podem ser MNAR (ex.: renda com recusa).

Imputação simples (determinística ou estocástica)

Preenche com uma regra única: média/mediana (numéricas), moda (categóricas), valor fixo, ou imputação por grupo (ex.: mediana por UF e sexo). É rápida, mas pode distorcer variância e correlações.

Vantagens: simplicidade, fácil auditoria.
Riscos: subestima variância (especialmente média/mediana), reduz dispersão, pode enviesar relações se faltantes não forem MCAR.

# Exemplo: mediana por grupo (UF x sexo) para renda (pseudo) renda_imp = if NA(renda) then median(renda | UF, sexo) else renda

Hot-deck (doadores)

Substitui o faltante pelo valor de um “doador” semelhante (mesma célula de classe ou vizinho mais próximo). Preserva distribuição e valores plausíveis (inclusive inteiros e categorias).

Vantagens: mantém forma da distribuição e coerência de valores; bom para variáveis categóricas e rendas assimétricas.
Riscos: se classes forem mal definidas, pode introduzir viés; pode reduzir variabilidade dentro de células pequenas; requer controle para não reutilizar excessivamente poucos doadores.

Imputação por regressão

Modela a variável faltante em função de covariáveis observadas e prediz valores. Pode ser determinística (usar predição) ou estocástica (adicionar erro aleatório para recuperar variância).

Vantagens: usa informação multivariada; útil quando MAR é plausível.
Riscos: predição determinística tende a “encolher” a variância; modelo mal especificado pode enviesar; exige cuidado com limites (ex.: renda não negativa).

Múltipla imputação (MI)

Gera m bases imputadas, refletindo incerteza do preenchimento. As análises são feitas em cada base e combinadas por regras de agregação, incorporando variância entre imputações. É especialmente relevante quando a proporção de faltantes é não desprezível e quando inferências e medidas de incerteza são necessárias.

Vantagens: melhor representação da incerteza; tende a produzir erros-padrão mais realistas do que imputação simples.
Riscos: maior complexidade operacional; requer modelo de imputação compatível com o uso analítico; exige governança para reprodutibilidade.

Efeitos em variâncias e interpretação (visão operacional)

Imputação simples: frequentemente subestima variâncias e pode “alisar” distribuições; interpretações de dispersão e desigualdade podem ficar artificiais.
Hot-deck: tende a preservar distribuição, mas pode subestimar variância se classes forem muito homogêneas ou pequenas; melhora plausibilidade de valores.
Regressão determinística: costuma reduzir variância e aumentar correlações artificiais; versão estocástica mitiga.
Múltipla imputação: incorpora incerteza adicional; intervalos tendem a ser mais amplos e realistas quando faltantes são relevantes.

Passo a passo prático para escolher e aplicar imputação

1) Diagnosticar ausência: taxa por variável e por domínio; verificar associação entre “estar faltante” e covariáveis (sinal de MAR/MNAR).
2) Definir objetivo: produzir totais/médias? distribuição/quantis? modelagem? consistência interna do questionário?
3) Selecionar método: simples/hot-deck/regressão/MI conforme tipo de variável e risco de viés.
4) Respeitar restrições: limites, inteiros, categorias válidas, coerência com outras variáveis (imputação condicionada).
5) Marcar imputados: criar flags por variável (imputado=1) e registrar método e versão.
6) Auditar impacto: comparar distribuições e indicadores antes/depois; medir % imputado por grupos; checar regras de consistência após imputação.

Reprodutibilidade e controle de versões do processamento

Princípios práticos

Pipeline determinístico: o mesmo input deve gerar o mesmo output (fixar seeds em métodos estocásticos e registrar).
Separação por camadas: raw (bruto), staging (padronizado), clean (limpo), analytic (variáveis derivadas), outputs (tabelas/indicadores).
Versionamento: scripts, dicionários, tabelas de mapeamento e parâmetros devem ser versionados; saídas devem registrar a versão do pipeline.
Logs: cada execução gera log com contagens (linhas, faltantes, imputados, outliers), tempo, ambiente e hash de entradas.

# Estrutura de log (exemplo) run_id: 2026-01-16T10:30Z input_hash: ... code_version: v1.4.2 steps: - standardize: rows=..., missing_rate=... - dedup: removed=... - rules: violations_by_rule={...} - outliers: flagged=... - impute: method='hot-deck', imputed_by_var={...} seed: 12345 output_hash: ...

Exercícios práticos de decisão (tratamento conforme variável, ausência e objetivo)

Exercício 1: renda do trabalho com 18% de faltantes

Cenário: variável numérica assimétrica (renda), com faltantes concentrados em certos perfis e presença de “recusa”. Objetivo: estimar média e quantis por UF.

Tarefa: classifique o mecanismo mais provável (MCAR/MAR/MNAR) e escolha uma estratégia.
Perguntas-guia: recusa é informativa (MNAR)? há covariáveis fortes (ocupação, escolaridade, setor, horas)? quantis são sensíveis a imputação simples?
Decisão esperada: preferir hot-deck por classes (UF, sexo, ocupação, faixa de horas) ou regressão estocástica; considerar MI se for necessário refletir incerteza de forma mais completa; manter “recusa” como categoria separada para indicadores de qualidade e avaliar sensibilidade.

Exercício 2: escolaridade (categórica ordinal) com 6% faltantes

Cenário: variável categórica com ordem (nível de instrução). Objetivo: distribuição por faixa etária.

Tarefa: escolher método que preserve categorias válidas e coerência com idade.
Decisão esperada: hot-deck dentro de células (idade, sexo, UF) ou imputação por modelo para variável ordinal; aplicar regra de consistência (idade mínima para certos níveis) antes e depois; evitar “moda global” se houver heterogeneidade por idade.

Exercício 3: área do domicílio com outliers extremos

Cenário: valores muito altos em poucos registros; suspeita de unidade (m² vs. hectares) e erros de digitação. Objetivo: média de área por situação do domicílio.

Tarefa: propor sequência de tratamento.
Decisão esperada: primeiro checar plausibilidade e unidade; aplicar regras determinísticas de correção quando inequívoco (ex.: valores múltiplos de 10.000 sugerindo hectare); sinalizar outliers por quantis/IQR por domínio; se persistirem e forem erros prováveis, winsorizar por domínio e marcar flag; reavaliar impacto na média.

Exercício 4: inconsistência lógica em condição de atividade

Cenário: pessoas marcadas como “ocupadas” com horas trabalhadas = 0 e sem ocupação codificada. Objetivo: indicador de ocupação.

Tarefa: definir regra de validação e ação de tratamento.
Decisão esperada: criar regra cruzada (ocupado implica horas>0 OU justificativa de afastamento; e ocupação codificada); classificar severidade; decidir entre (a) corrigir status para “não ocupado” quando evidência forte, (b) imputar horas/ocupação via hot-deck/regressão quando status for confiável, (c) encaminhar para crítica manual em casos ambíguos; registrar percentuais afetados.

Exercício 5: escolha de técnica por tipo de variável e objetivo

Numérica contínua (assimétrica), foco em quantis: hot-deck por classes ou MI; cautela com média/mediana simples.
Numérica com restrição (não negativa, inteira): regressão com restrições/transformações e componente estocástico; ou hot-deck.
Categórica nominal: hot-deck ou modelo multinomial; evitar imputar “moda” se houver variação por domínio.
Ordinal: hot-deck respeitando ordem ou modelo ordinal; validar coerência com idade/etapa.
Objetivo principal é total agregado: métodos que preservem soma e distribuição por domínio; auditar impacto em totais.
Objetivo principal é análise multivariada: preferir métodos que preservem relações (regressão estocástica/MI) e registrar incerteza.

Agora responda o exercício sobre o conteúdo:

Ao tratar valores faltantes em microdados de pesquisas oficiais, qual prática melhor orienta a escolha entre manter como categoria, imputar ou excluir?

Você acertou! Parabéns, agora siga para a próxima página

Você errou! Tente novamente.

Nem todo faltante tem o mesmo significado. Separar tipos de ausência e checar se o faltante é esperado por padrões de salto permite decidir de forma consistente entre manter como categoria, imputar ou excluir, reduzindo distorções.

Próximo capitúlo

Geografia econômica para Analista do IBGE: estrutura produtiva, redes e territorialização

40%

Analista do IBGE: Estudo Avançado em Estatística, Geografia e Políticas Públicas

Novo curso

15 páginas