Estatística Descritiva do Zero: organização e limpeza mínima para resumir dados

Capítulo 3

Tempo estimado de leitura: 9 minutos

+ Exercício

Por que organizar e fazer uma “limpeza mínima” antes de resumir

Medidas descritivas (contagens, médias, medianas, tabelas e gráficos) só são úteis se os dados estiverem minimamente consistentes. Pequenas inconsistências criam distorções grandes: uma categoria escrita de três formas vira três grupos diferentes; datas inválidas bagunçam séries temporais; duplicidades inflacionam totais; valores ausentes confundidos com zero mudam médias e proporções.

O objetivo aqui é aplicar uma limpeza mínima e documentada, suficiente para que as descrições representem o fenômeno real, sem “inventar” dados ou fazer correções agressivas.

Princípios da limpeza mínima (o que fazer e o que evitar)

  • Padronizar representações (mesmo significado, mesma escrita): acentos, caixa alta/baixa, espaços, abreviações.
  • Separar ausência de valor: diferenciar erro, ausência e zero.
  • Checar duplicidades: registros repetidos podem inflar contagens e somas.
  • Verificar consistência: datas impossíveis, idades negativas, valores fora de faixa, combinações incoerentes (ex.: data de alta antes da data de entrada).
  • Documentar decisões: o que foi removido, agrupado, imputado ou mantido e por quê.

Erro, ausência e zero: diferenças que mudam o resumo

1) Erro (valor inválido ou incoerente)

É quando existe um valor, mas ele não faz sentido para a regra do dado. Exemplos: idade = -3; data = 31/02/2024; categoria “SPP” quando só existem “SP” e “RJ”. Erros podem surgir por digitação, importação, conversão de formato ou regra de preenchimento mal definida.

Impacto: erros podem distorcer médias, mínimos/máximos e até criar categorias falsas.

2) Ausência (missing)

É quando o valor não foi registrado ou não se aplica. Pode aparecer como célula vazia, NA, null, sem informação, -, 999 (código de ausência), etc.

Continue em nosso aplicativo e ...
  • Ouça o áudio com a tela desligada
  • Ganhe Certificado após a conclusão
  • + de 5000 cursos para você explorar!
ou continue lendo abaixo...
Download App

Baixar o aplicativo

Impacto: se você tratar ausência como zero, reduz médias e altera proporções. Se você simplesmente excluir tudo, pode reduzir a amostra e enviesar descrições (por exemplo, se faltam dados mais em um grupo do que em outro).

3) Zero (valor real)

Zero é um valor válido que significa “nada” ou “quantidade nula”. Exemplos: 0 compras no mês; 0 dependentes; 0 dias de atraso.

Impacto: zero deve entrar nos cálculos; ausência não é zero. Misturar os dois muda completamente a interpretação.

Exemplo rápido (por que isso importa)

Suponha a variável “número de compras no mês” para 5 pessoas: [3, 2, 0, (ausente), 1].

  • Se você ignorar a ausência, a média é (3+2+0+1)/4 = 1,5.
  • Se você trocar ausência por 0, a média vira (3+2+0+0+1)/5 = 1,2.

As duas médias contam histórias diferentes. A segunda supõe que a pessoa realmente fez zero compras, o que pode ser falso.

Passo a passo prático: fluxo simples de organização e limpeza mínima

Use este fluxo antes de qualquer tabela ou gráfico. A ideia é ser repetível e auditável.

Passo 1 — Defina o “dicionário mínimo” do conjunto

Antes de mexer nos dados, registre regras simples:

  • Chave do registro: qual coluna identifica unicamente uma linha? (ex.: id_cliente + data).
  • Formato esperado para datas, números e categorias (ex.: data no padrão AAAA-MM-DD).
  • Faixas válidas (ex.: idade entre 0 e 120; desconto entre 0 e 100%).
  • Códigos de ausência (ex.: vazio, NA, sem info, 999).

Esse “dicionário mínimo” evita que você corrija coisas no improviso e depois esqueça o critério.

Passo 2 — Padronize categorias (acentos, abreviações, variações)

Categorias são campeãs em gerar ruído. Faça uma padronização leve e transparente.

2.1 Normalização de texto (mecânica)

  • Remover espaços extras (início/fim e duplicados no meio).
  • Padronizar caixa (ex.: tudo em minúsculas ou “Título”).
  • Padronizar acentos (decida se mantém ou remove; o importante é consistência).

Exemplo: “São Paulo”, “Sao Paulo”, “são paulo ” devem virar a mesma forma.

2.2 Mapeamento de abreviações e sinônimos (semântica)

Crie uma tabela de mapeamento (de-para) para abreviações e variações comuns.

OriginalPadronizado
“SP”“São Paulo”
“S. Paulo”“São Paulo”
“RJ”“Rio de Janeiro”
“R. Janeiro”“Rio de Janeiro”

Regra prática: só agrupe variações quando tiver alta confiança de que são o mesmo conceito. Se houver dúvida, marque como “revisar” em vez de forçar um agrupamento.

2.3 Categorias raras: agrupar ou manter?

Quando há muitas categorias com pouquíssimas ocorrências, tabelas e gráficos ficam ilegíveis. Uma abordagem comum é agrupar em “Outros”, mas isso tem impacto interpretativo.

  • Quando agrupar: relatórios executivos, visualizações com muitas classes, categorias sem relevância analítica.
  • Quando manter: auditoria, análise de qualidade, quando categorias raras são importantes (ex.: eventos de risco).

Decisão documentada: “Agrupei categorias com frequência < 5 em ‘Outros’ para facilitar leitura; mantive a lista original em anexo para rastreabilidade”.

Passo 3 — Trate valores ausentes (primeiro: identificar; depois: decidir)

3.1 Identifique ausências reais e “ausências disfarçadas”

Liste todos os códigos que significam ausência e converta para um único padrão (ex.: NA).

  • Vazio, “-”, “(em branco)”, “sem info”
  • Códigos numéricos como 999, -1 (quando definidos como ausência)

Cuidado: não transforme automaticamente 0 em ausência. Zero pode ser valor válido.

3.2 Meça a ausência antes de agir

Antes de imputar ou excluir, faça uma tabela simples de ausência por variável e, se possível, por grupos relevantes (ex.: por região, por período).

  • Ausência baixa (ex.: < 1%): muitas vezes dá para excluir casos pontuais sem grande impacto.
  • Ausência moderada/alta: excluir pode reduzir muito a base e enviesar descrições.

3.3 Decida: manter como ausente, imputar ou excluir

Para estatística descritiva, as opções mais comuns são:

  • Manter como ausente e reportar: “X% sem informação”. Útil quando a ausência é informativa (ex.: campo opcional).
  • Excluir apenas na análise específica (ex.: calcular média só com valores presentes), deixando claro o n usado.
  • Imputar (preencher) com regra simples e explícita, quando faz sentido operacionalmente.

Imputação simples (com cautela):

  • Numéricas: mediana do grupo (ex.: por região) pode ser mais robusta que média.
  • Categóricas: criar categoria “Não informado” costuma ser melhor do que “chutar” uma classe.

Impacto na interpretação: imputar reduz variabilidade e pode “alisar” diferenças reais. Por isso, registre sempre quantos valores foram imputados.

Passo 4 — Verifique duplicidades (e defina o que é duplicado)

Duplicidade não é apenas “linhas iguais”. Você precisa definir a regra:

  • Duplicado exato: todas as colunas iguais.
  • Duplicado por chave: mesma chave do registro (ex.: mesmo id_pedido), mesmo que outros campos variem.

4.1 Procedimento prático

  • Escolha a chave (ou combinação de colunas) que deveria ser única.
  • Conte quantas vezes cada chave aparece.
  • Inspecione casos com contagem > 1.

4.2 O que fazer quando encontra duplicados

  • Se for repetição de importação: manter 1 e remover o resto.
  • Se forem registros legítimos (ex.: múltiplos itens do mesmo pedido): talvez a chave esteja errada; ajuste a granularidade (ex.: pedido vs item).
  • Se houver conflito de valores: defina regra (ex.: manter o mais recente por data de atualização) e registre.

Impacto na interpretação: duplicados inflacionam totais, médias ponderadas por contagem e frequências de categorias.

Passo 5 — Checagens de consistência (regras simples que pegam muitos problemas)

Crie uma lista curta de validações. Exemplos comuns:

5.1 Datas

  • Datas impossíveis (31/02).
  • Datas futuras quando não deveriam existir (ex.: data de nascimento).
  • Ordem temporal: data_saida não pode ser anterior a data_entrada.

5.2 Faixas numéricas

  • Idade negativa ou acima de um limite plausível.
  • Percentuais fora de 0–100.
  • Quantidades inteiras com casas decimais quando não faz sentido (ex.: “número de filhos = 2,5”).

5.3 Consistência entre campos

  • Se status = “cancelado”, então valor_pago deveria ser 0 ou ausente (dependendo da regra do negócio).
  • Se pais = “Brasil”, então estado não deveria estar vazio (se for obrigatório).

O que fazer com inconsistências: marque como erro, corrija se houver regra clara (ex.: formato de data), ou transforme em ausente quando não der para recuperar com segurança.

Modelo de “log de decisões” (documentação curta e útil)

Uma limpeza mínima boa é aquela que você consegue explicar. Use um registro simples como este:

ItemRegra aplicadaQuantidade afetadaDecisãoImpacto esperado
Padronização de UFMapeamento “SP”, “S. Paulo” → “São Paulo”312 linhasAgrupadoReduz categorias duplicadas; melhora contagens por estado
Ausências em rendaVazio, “-”, “999” → NA87 linhasMantido como ausenteMédias calculadas com n menor; reportar % ausente
Duplicidade por id_pedidoManter registro mais recente por data_atualizacao14 pedidosRemovido duplicadoEvita inflar faturamento
Data de nascimentoDatas futuras → NA3 linhasCorrigido para ausenteEvita idades negativas; mantém registro

Mini-exemplo integrado (do dado “sujo” ao “pronto para descrever”)

Imagine uma base de clientes com colunas: id_cliente, cidade, compras_mes, data_cadastro.

id_cliente | cidade        | compras_mes | data_cadastro
101        | "Sao Paulo"   | 3           | 2024-01-10
102        | "São Paulo "  | (vazio)     | 2024-13-05
103        | "SP"          | 0           | 2024-01-12
103        | "SP"          | 0           | 2024-01-12
104        | "Rio Janeiro" | 2           | 2024-01-11
105        | "RJ"          | 999         | 2024-01-11

Aplicando o fluxo

  • Padronizar cidade: “Sao Paulo”, “São Paulo ”, “SP” → “São Paulo”; “Rio Janeiro” e “RJ” → “Rio de Janeiro” (via tabela de mapeamento).
  • Ausências: (vazio) e 999 → NA em compras_mes.
  • Consistência de data: 2024-13-05 é inválida → corrigir se for erro de formato conhecido; se não houver como inferir, marcar como NA e registrar.
  • Duplicidade: id_cliente=103 aparece duas vezes com tudo igual → remover duplicado exato.

Depois disso, suas descrições ficam mais confiáveis: contagem por cidade não fica fragmentada, a média de compras não confunde ausência com zero, e a análise por data não é contaminada por datas impossíveis.

Checklist rápido antes de descrever (use sempre)

  • As categorias estão padronizadas (acentos, abreviações, espaços)?
  • Ausência está identificada e separada de zero?
  • Duplicidades foram verificadas com uma chave definida?
  • Há regras mínimas de consistência (faixas e datas) aplicadas?
  • Existe um log do que foi alterado (removido/agrupado/imputado/mantido) e quantos casos foram afetados?

Agora responda o exercício sobre o conteúdo:

Ao preparar uma base para calcular médias, contagens e fazer gráficos, qual prática melhor evita distorções ao lidar com valores ausentes e zeros?

Você acertou! Parabéns, agora siga para a próxima página

Você errou! Tente novamente.

Ausência não é zero. Padronizar ausências (ex.: vazio/999 → ausente) e manter zeros como valores reais evita reduzir médias indevidamente ou inflar/alterar proporções. Também é importante reportar o n usado quando há ausências.

Próximo capitúlo

Estatística Descritiva do Zero: tabelas de frequência para variáveis qualitativas

Arrow Right Icon
Capa do Ebook gratuito Estatística Descritiva do Zero: Como Entender e Resumir Dados
23%

Estatística Descritiva do Zero: Como Entender e Resumir Dados

Novo curso

13 páginas

Baixe o app para ganhar Certificação grátis e ouvir os cursos em background, mesmo com a tela desligada.