O que significa “descrever dados” de forma clara e verificável
Em estatística descritiva, descrever dados é transformar um conjunto de registros (linhas) em uma explicação organizada e verificável do que foi observado. “Clara” significa que outra pessoa entende o que foi medido, em quem/onde, quando e como. “Verificável” significa que, com o mesmo conjunto de dados e as mesmas regras, outra pessoa consegue chegar às mesmas tabelas, resumos e interpretações.
Uma boa descrição não é “opinião sobre os dados”; é um relato estruturado que deixa explícitos: (1) qual é o universo de interesse, (2) como os dados foram coletados, (3) o que cada coluna representa, (4) quais registros entram ou saem da análise e (5) qual pergunta descritiva está sendo respondida.
Exemplo rápido (por que o contexto muda a leitura)
Considere a variável tempo_de_entrega (em dias). Se os dados são de um único bairro e de uma semana, a descrição responde “como foi a entrega nesse recorte”. Se os dados são do país inteiro e de um ano, a mesma variável passa a refletir sazonalidade, logística e heterogeneidade regional. O número pode ser o mesmo, mas o significado muda.
Conceitos fundamentais: população, amostra, unidade de observação e variável
População
População é o conjunto completo de elementos sobre os quais você quer descrever algo. Não precisa ser “pessoas”; pode ser transações, produtos, atendimentos, sensores, dias etc.
- Exemplo: todas as entregas realizadas pela empresa em 2025.
- Impacto na leitura: se você diz “na população”, está descrevendo o todo; se você só tem parte, precisa deixar claro que é uma amostra.
Amostra
Amostra é um subconjunto da população que você efetivamente observou/registrou.
- Ouça o áudio com a tela desligada
- Ganhe Certificado após a conclusão
- + de 5000 cursos para você explorar!
Baixar o aplicativo
- Exemplo: 5.000 entregas registradas no sistema entre janeiro e março de 2025.
- Impacto na leitura: a amostra pode não representar bem a população se houver vieses (por exemplo, só um período, só uma região, só um canal de venda). Mesmo em descrição, isso altera o que você pode afirmar com segurança.
Unidade de observação
Unidade de observação é “o que” cada linha do dataset representa. É uma decisão central: muda o significado de médias, contagens, proporções e comparações.
- Exemplo 1 (linha = entrega): cada registro é uma entrega; variáveis podem ser
tempo_de_entrega,distancia_km,regiao. - Exemplo 2 (linha = cliente): cada registro é um cliente; variáveis podem ser
qtd_pedidos,gasto_total,tempo_medio_de_entrega. - Impacto na leitura: se você calcula “tempo médio de entrega” com unidade = entrega, clientes que compram muito pesam mais. Com unidade = cliente, cada cliente pesa igual (você descreve a experiência típica do cliente, não a entrega típica).
Variável
Variável é uma característica medida/registrada para cada unidade de observação (cada linha). Pode ser numérica, categórica, data/hora, texto codificado etc. O ponto-chave é: variável precisa de definição operacional (o que exatamente foi medido e em qual unidade).
- Exemplo:
idade(anos completos?),renda(mensal? bruta? em qual moeda?),status(quais categorias possíveis?),data_compra(fuso horário?). - Impacto na leitura: sem definição operacional, duas pessoas podem “descrever” a mesma coluna de formas incompatíveis (por exemplo, misturar renda mensal e anual).
Como cada escolha afeta a descrição (e como evitar confusões)
1) População e amostra: o “alcance” do que você descreve
Antes de qualquer cálculo, escreva uma frase do tipo:
- População-alvo: “todas as entregas do e-commerce no Brasil em 2025”.
- Amostra observada: “entregas registradas no sistema X entre 01/01/2025 e 31/03/2025, com status finalizado”.
Isso evita interpretações indevidas como generalizar um trimestre para o ano inteiro ou um canal para todos os canais.
2) Unidade de observação: o “peso” de cada registro
Dois erros comuns:
- Duplicidade de unidade: achar que cada linha é um cliente, mas na verdade são pedidos (um cliente aparece várias vezes).
- Agregação precoce: resumir por mês e depois tentar “detectar outliers” como se fossem entregas individuais.
Regra prática: se a pergunta é sobre indivíduos (clientes, pacientes), prefira unidade = indivíduo. Se a pergunta é sobre eventos (compras, entregas, atendimentos), prefira unidade = evento.
3) Variáveis: o “significado” do que será resumido
Para cada variável, registre:
- Tipo: numérica, categórica, data/hora, identificador.
- Unidade de medida: dias, reais, km, porcentagem.
- Domínio esperado: por exemplo,
tempo_de_entrega>= 0;idadeentre 0 e 120; categorias permitidas emstatus.
Isso facilita detectar erros de digitação, codificações inconsistentes e valores impossíveis.
Identificando o objetivo da descrição (o que você quer enxergar)
O objetivo define quais resumos fazem sentido e quais gráficos/tabelas serão mais informativos. Três objetivos muito comuns:
Objetivo A: comparar grupos
Você quer saber se há diferenças entre categorias (regiões, turmas, canais, faixas etárias).
- Pergunta típica: “O tempo de entrega difere entre regiões?”
- O que preparar no dataset: uma variável de grupo bem definida (ex.:
regiaocom categorias padronizadas) e a variável de interesse (ex.:tempo_de_entrega). - Cuidados: grupos com poucos registros podem gerar descrições instáveis; registre o tamanho de cada grupo (
n).
Objetivo B: entender a distribuição
Você quer entender como os valores se espalham: concentração, assimetria, dispersão, presença de caudas.
- Pergunta típica: “A maioria das entregas ocorre em até quantos dias?”
- O que preparar no dataset: garantir que a variável numérica esteja em uma única unidade e sem misturar escalas (dias vs horas).
- Cuidados: datas e horários precisam de fuso e formato consistentes; valores faltantes devem ser codificados de forma única.
Objetivo C: detectar valores atípicos (outliers) e possíveis erros
Você quer encontrar registros muito fora do padrão para investigar: podem ser casos reais importantes ou erros de registro.
- Pergunta típica: “Existem entregas com tempo negativo ou extremamente alto?”
- O que preparar no dataset: regras de plausibilidade (mínimo/máximo) e variáveis auxiliares para checagem (ex.:
data_postagemedata_entregapara validartempo_de_entrega). - Cuidados: outlier não é automaticamente “erro”; registre o critério de sinalização e o que foi feito depois (manter, corrigir, excluir).
Registrando o contexto do conjunto de dados (para a descrição ser auditável)
Antes de calcular qualquer resumo, crie um “cartão de contexto” do dataset. Ele pode ser um bloco de texto no seu relatório, um arquivo README ou uma aba “Dicionário” na planilha.
Itens mínimos do contexto
- Fonte: sistema, pesquisa, sensor, formulário; nome e versão se aplicável.
- Período: datas de início e fim; se há sazonalidade relevante, registre.
- Local/escopo: região, unidade, canal, produto, público-alvo.
- Critérios de inclusão: o que entra (ex.: apenas pedidos finalizados; apenas maiores de 18).
- Critérios de exclusão: o que sai (ex.: cancelados; testes internos; duplicados).
- Definições operacionais: como cada variável foi calculada (ex.:
tempo_de_entrega = data_entrega - data_postagemem dias corridos). - Tratamento de faltantes: como valores ausentes aparecem (vazio,
NA,null,0) e o que significam.
Exemplo de “cartão de contexto” (modelo)
Fonte: Sistema LogX (exportação CSV), tabela entregas_v2
Período: 01/01/2025 a 31/03/2025 (datas no fuso America/Sao_Paulo)
Unidade de observação: entrega (1 linha = 1 entrega)
População-alvo: entregas do e-commerce no Brasil em 2025
Amostra: entregas com status = 'finalizada' no período
Inclusão: pedidos do canal online, com CEP válido
Exclusão: cancelados, devoluções, registros de teste
Variáveis-chave:
- tempo_de_entrega_dias = data_entrega - data_postagem (dias corridos)
- regiao = {N, NE, CO, SE, S}
Faltantes: NA indica informação não registrada; 0 não é usado para faltantePasso a passo prático: organizando o dataset antes de qualquer cálculo
Passo 1 — Defina a pergunta descritiva em uma frase
Exemplos:
- “Descrever o tempo de entrega e comparar entre regiões no 1º trimestre de 2025.”
- “Descrever a distribuição de gastos por cliente no último mês.”
Passo 2 — Confirme a unidade de observação (o que é uma linha)
Verifique se há identificadores e repetição esperada:
- Se a unidade é “cliente”, o
id_clientedeve ser único por linha. - Se a unidade é “pedido”, o
id_pedidodeve ser único por linha.
Passo 3 — Liste variáveis essenciais e classifique o tipo
Monte uma tabela simples (dicionário mínimo):
| Variável | Tipo | Unidade/formatos | Descrição |
|---|---|---|---|
| tempo_de_entrega_dias | Numérica | dias (inteiro ou decimal) | Diferença entre postagem e entrega |
| regiao | Categórica | N, NE, CO, SE, S | Região do destino |
| data_postagem | Data/hora | YYYY-MM-DD | Data de postagem |
Passo 4 — Padronize categorias e unidades
- Categorias: garanta que “SP”, “São Paulo” e “Sao Paulo” não coexistam se representam a mesma coisa.
- Unidades: não misture km e milhas; dias e horas; moeda em R$ e US$ na mesma coluna.
Passo 5 — Verifique faltantes, duplicidades e valores impossíveis
- Faltantes: conte quantos
NAexistem por variável e se faltante significa “não aplicável” ou “não registrado”. - Duplicidades: procure IDs repetidos quando deveriam ser únicos.
- Valores impossíveis: tempo negativo, idade > 120, datas no futuro (se não fizer sentido).
Passo 6 — Registre critérios de inclusão/exclusão (antes de filtrar)
Escreva as regras e só depois aplique filtros. Exemplo:
- Incluir apenas
status = 'finalizada'. - Excluir
tempo_de_entrega_diasfaltante. - Excluir registros de teste (
flag_teste = 1).
Isso evita “ajustar o filtro” para obter um resultado desejado sem perceber.
Passo 7 — Crie uma versão “pronta para descrição”
Salve uma cópia do dataset com:
- colunas renomeadas de forma consistente,
- tipos corretos (número, data, categoria),
- categorias padronizadas,
- um arquivo/aba com o dicionário e o cartão de contexto.
Mini-checklist prático (antes de qualquer cálculo)
- Objetivo: vou comparar grupos, entender distribuição ou detectar outliers?
- População-alvo: está escrita em uma frase?
- Amostra: de onde veio, qual período e qual escopo?
- Unidade de observação: cada linha representa exatamente o quê?
- Variáveis: tenho definição operacional e unidade de medida?
- Tipos de dados: números são números, datas são datas, categorias são categorias?
- Categorias padronizadas: não há duplicidade de rótulos para a mesma categoria?
- Faltantes: sei quantos são e o que significam?
- Regras de plausibilidade: limites mínimos/máximos fazem sentido e foram checados?
- Inclusão/exclusão: critérios registrados antes de filtrar?
- Rastreabilidade: cartão de contexto + dicionário de variáveis estão salvos junto do dataset?