Por que organizar e fazer uma “limpeza mínima” antes de resumir
Medidas descritivas (contagens, médias, medianas, tabelas e gráficos) só são úteis se os dados estiverem minimamente consistentes. Pequenas inconsistências criam distorções grandes: uma categoria escrita de três formas vira três grupos diferentes; datas inválidas bagunçam séries temporais; duplicidades inflacionam totais; valores ausentes confundidos com zero mudam médias e proporções.
O objetivo aqui é aplicar uma limpeza mínima e documentada, suficiente para que as descrições representem o fenômeno real, sem “inventar” dados ou fazer correções agressivas.
Princípios da limpeza mínima (o que fazer e o que evitar)
- Padronizar representações (mesmo significado, mesma escrita): acentos, caixa alta/baixa, espaços, abreviações.
- Separar ausência de valor: diferenciar erro, ausência e zero.
- Checar duplicidades: registros repetidos podem inflar contagens e somas.
- Verificar consistência: datas impossíveis, idades negativas, valores fora de faixa, combinações incoerentes (ex.: data de alta antes da data de entrada).
- Documentar decisões: o que foi removido, agrupado, imputado ou mantido e por quê.
Erro, ausência e zero: diferenças que mudam o resumo
1) Erro (valor inválido ou incoerente)
É quando existe um valor, mas ele não faz sentido para a regra do dado. Exemplos: idade = -3; data = 31/02/2024; categoria “SPP” quando só existem “SP” e “RJ”. Erros podem surgir por digitação, importação, conversão de formato ou regra de preenchimento mal definida.
Impacto: erros podem distorcer médias, mínimos/máximos e até criar categorias falsas.
2) Ausência (missing)
É quando o valor não foi registrado ou não se aplica. Pode aparecer como célula vazia, NA, null, sem informação, -, 999 (código de ausência), etc.
- Ouça o áudio com a tela desligada
- Ganhe Certificado após a conclusão
- + de 5000 cursos para você explorar!
Baixar o aplicativo
Impacto: se você tratar ausência como zero, reduz médias e altera proporções. Se você simplesmente excluir tudo, pode reduzir a amostra e enviesar descrições (por exemplo, se faltam dados mais em um grupo do que em outro).
3) Zero (valor real)
Zero é um valor válido que significa “nada” ou “quantidade nula”. Exemplos: 0 compras no mês; 0 dependentes; 0 dias de atraso.
Impacto: zero deve entrar nos cálculos; ausência não é zero. Misturar os dois muda completamente a interpretação.
Exemplo rápido (por que isso importa)
Suponha a variável “número de compras no mês” para 5 pessoas: [3, 2, 0, (ausente), 1].
- Se você ignorar a ausência, a média é
(3+2+0+1)/4 = 1,5. - Se você trocar ausência por 0, a média vira
(3+2+0+0+1)/5 = 1,2.
As duas médias contam histórias diferentes. A segunda supõe que a pessoa realmente fez zero compras, o que pode ser falso.
Passo a passo prático: fluxo simples de organização e limpeza mínima
Use este fluxo antes de qualquer tabela ou gráfico. A ideia é ser repetível e auditável.
Passo 1 — Defina o “dicionário mínimo” do conjunto
Antes de mexer nos dados, registre regras simples:
- Chave do registro: qual coluna identifica unicamente uma linha? (ex.:
id_cliente+data). - Formato esperado para datas, números e categorias (ex.: data no padrão
AAAA-MM-DD). - Faixas válidas (ex.: idade entre 0 e 120; desconto entre 0 e 100%).
- Códigos de ausência (ex.: vazio,
NA,sem info,999).
Esse “dicionário mínimo” evita que você corrija coisas no improviso e depois esqueça o critério.
Passo 2 — Padronize categorias (acentos, abreviações, variações)
Categorias são campeãs em gerar ruído. Faça uma padronização leve e transparente.
2.1 Normalização de texto (mecânica)
- Remover espaços extras (início/fim e duplicados no meio).
- Padronizar caixa (ex.: tudo em minúsculas ou “Título”).
- Padronizar acentos (decida se mantém ou remove; o importante é consistência).
Exemplo: “São Paulo”, “Sao Paulo”, “são paulo ” devem virar a mesma forma.
2.2 Mapeamento de abreviações e sinônimos (semântica)
Crie uma tabela de mapeamento (de-para) para abreviações e variações comuns.
| Original | Padronizado |
|---|---|
| “SP” | “São Paulo” |
| “S. Paulo” | “São Paulo” |
| “RJ” | “Rio de Janeiro” |
| “R. Janeiro” | “Rio de Janeiro” |
Regra prática: só agrupe variações quando tiver alta confiança de que são o mesmo conceito. Se houver dúvida, marque como “revisar” em vez de forçar um agrupamento.
2.3 Categorias raras: agrupar ou manter?
Quando há muitas categorias com pouquíssimas ocorrências, tabelas e gráficos ficam ilegíveis. Uma abordagem comum é agrupar em “Outros”, mas isso tem impacto interpretativo.
- Quando agrupar: relatórios executivos, visualizações com muitas classes, categorias sem relevância analítica.
- Quando manter: auditoria, análise de qualidade, quando categorias raras são importantes (ex.: eventos de risco).
Decisão documentada: “Agrupei categorias com frequência < 5 em ‘Outros’ para facilitar leitura; mantive a lista original em anexo para rastreabilidade”.
Passo 3 — Trate valores ausentes (primeiro: identificar; depois: decidir)
3.1 Identifique ausências reais e “ausências disfarçadas”
Liste todos os códigos que significam ausência e converta para um único padrão (ex.: NA).
- Vazio, “-”, “(em branco)”, “sem info”
- Códigos numéricos como
999,-1(quando definidos como ausência)
Cuidado: não transforme automaticamente 0 em ausência. Zero pode ser valor válido.
3.2 Meça a ausência antes de agir
Antes de imputar ou excluir, faça uma tabela simples de ausência por variável e, se possível, por grupos relevantes (ex.: por região, por período).
- Ausência baixa (ex.: < 1%): muitas vezes dá para excluir casos pontuais sem grande impacto.
- Ausência moderada/alta: excluir pode reduzir muito a base e enviesar descrições.
3.3 Decida: manter como ausente, imputar ou excluir
Para estatística descritiva, as opções mais comuns são:
- Manter como ausente e reportar: “X% sem informação”. Útil quando a ausência é informativa (ex.: campo opcional).
- Excluir apenas na análise específica (ex.: calcular média só com valores presentes), deixando claro o
nusado. - Imputar (preencher) com regra simples e explícita, quando faz sentido operacionalmente.
Imputação simples (com cautela):
- Numéricas: mediana do grupo (ex.: por região) pode ser mais robusta que média.
- Categóricas: criar categoria “Não informado” costuma ser melhor do que “chutar” uma classe.
Impacto na interpretação: imputar reduz variabilidade e pode “alisar” diferenças reais. Por isso, registre sempre quantos valores foram imputados.
Passo 4 — Verifique duplicidades (e defina o que é duplicado)
Duplicidade não é apenas “linhas iguais”. Você precisa definir a regra:
- Duplicado exato: todas as colunas iguais.
- Duplicado por chave: mesma chave do registro (ex.: mesmo
id_pedido), mesmo que outros campos variem.
4.1 Procedimento prático
- Escolha a chave (ou combinação de colunas) que deveria ser única.
- Conte quantas vezes cada chave aparece.
- Inspecione casos com contagem > 1.
4.2 O que fazer quando encontra duplicados
- Se for repetição de importação: manter 1 e remover o resto.
- Se forem registros legítimos (ex.: múltiplos itens do mesmo pedido): talvez a chave esteja errada; ajuste a granularidade (ex.: pedido vs item).
- Se houver conflito de valores: defina regra (ex.: manter o mais recente por data de atualização) e registre.
Impacto na interpretação: duplicados inflacionam totais, médias ponderadas por contagem e frequências de categorias.
Passo 5 — Checagens de consistência (regras simples que pegam muitos problemas)
Crie uma lista curta de validações. Exemplos comuns:
5.1 Datas
- Datas impossíveis (31/02).
- Datas futuras quando não deveriam existir (ex.: data de nascimento).
- Ordem temporal:
data_saidanão pode ser anterior adata_entrada.
5.2 Faixas numéricas
- Idade negativa ou acima de um limite plausível.
- Percentuais fora de 0–100.
- Quantidades inteiras com casas decimais quando não faz sentido (ex.: “número de filhos = 2,5”).
5.3 Consistência entre campos
- Se
status = “cancelado”, entãovalor_pagodeveria ser 0 ou ausente (dependendo da regra do negócio). - Se
pais = “Brasil”, entãoestadonão deveria estar vazio (se for obrigatório).
O que fazer com inconsistências: marque como erro, corrija se houver regra clara (ex.: formato de data), ou transforme em ausente quando não der para recuperar com segurança.
Modelo de “log de decisões” (documentação curta e útil)
Uma limpeza mínima boa é aquela que você consegue explicar. Use um registro simples como este:
| Item | Regra aplicada | Quantidade afetada | Decisão | Impacto esperado |
|---|---|---|---|---|
| Padronização de UF | Mapeamento “SP”, “S. Paulo” → “São Paulo” | 312 linhas | Agrupado | Reduz categorias duplicadas; melhora contagens por estado |
| Ausências em renda | Vazio, “-”, “999” → NA | 87 linhas | Mantido como ausente | Médias calculadas com n menor; reportar % ausente |
| Duplicidade por id_pedido | Manter registro mais recente por data_atualizacao | 14 pedidos | Removido duplicado | Evita inflar faturamento |
| Data de nascimento | Datas futuras → NA | 3 linhas | Corrigido para ausente | Evita idades negativas; mantém registro |
Mini-exemplo integrado (do dado “sujo” ao “pronto para descrever”)
Imagine uma base de clientes com colunas: id_cliente, cidade, compras_mes, data_cadastro.
id_cliente | cidade | compras_mes | data_cadastro
101 | "Sao Paulo" | 3 | 2024-01-10
102 | "São Paulo " | (vazio) | 2024-13-05
103 | "SP" | 0 | 2024-01-12
103 | "SP" | 0 | 2024-01-12
104 | "Rio Janeiro" | 2 | 2024-01-11
105 | "RJ" | 999 | 2024-01-11Aplicando o fluxo
- Padronizar cidade: “Sao Paulo”, “São Paulo ”, “SP” → “São Paulo”; “Rio Janeiro” e “RJ” → “Rio de Janeiro” (via tabela de mapeamento).
- Ausências: (vazio) e 999 →
NAemcompras_mes. - Consistência de data:
2024-13-05é inválida → corrigir se for erro de formato conhecido; se não houver como inferir, marcar comoNAe registrar. - Duplicidade:
id_cliente=103aparece duas vezes com tudo igual → remover duplicado exato.
Depois disso, suas descrições ficam mais confiáveis: contagem por cidade não fica fragmentada, a média de compras não confunde ausência com zero, e a análise por data não é contaminada por datas impossíveis.
Checklist rápido antes de descrever (use sempre)
- As categorias estão padronizadas (acentos, abreviações, espaços)?
- Ausência está identificada e separada de zero?
- Duplicidades foram verificadas com uma chave definida?
- Há regras mínimas de consistência (faixas e datas) aplicadas?
- Existe um log do que foi alterado (removido/agrupado/imputado/mantido) e quantos casos foram afetados?