Todos os cursos > Educação Básica, ENEM e Vestibulares > Estatística e Probabilidade ::

Estatística Descritiva do Zero: dados, unidades e objetivos de descrição

Capítulo 1

Tempo estimado de leitura: 9 minutos

O que significa “descrever dados” de forma clara e verificável

Em estatística descritiva, descrever dados é transformar um conjunto de registros (linhas) em uma explicação organizada e verificável do que foi observado. “Clara” significa que outra pessoa entende o que foi medido, em quem/onde, quando e como. “Verificável” significa que, com o mesmo conjunto de dados e as mesmas regras, outra pessoa consegue chegar às mesmas tabelas, resumos e interpretações.

Uma boa descrição não é “opinião sobre os dados”; é um relato estruturado que deixa explícitos: (1) qual é o universo de interesse, (2) como os dados foram coletados, (3) o que cada coluna representa, (4) quais registros entram ou saem da análise e (5) qual pergunta descritiva está sendo respondida.

Exemplo rápido (por que o contexto muda a leitura)

Considere a variável tempo_de_entrega (em dias). Se os dados são de um único bairro e de uma semana, a descrição responde “como foi a entrega nesse recorte”. Se os dados são do país inteiro e de um ano, a mesma variável passa a refletir sazonalidade, logística e heterogeneidade regional. O número pode ser o mesmo, mas o significado muda.

Conceitos fundamentais: população, amostra, unidade de observação e variável

População

População é o conjunto completo de elementos sobre os quais você quer descrever algo. Não precisa ser “pessoas”; pode ser transações, produtos, atendimentos, sensores, dias etc.

Exemplo: todas as entregas realizadas pela empresa em 2025.
Impacto na leitura: se você diz “na população”, está descrevendo o todo; se você só tem parte, precisa deixar claro que é uma amostra.

Amostra

Amostra é um subconjunto da população que você efetivamente observou/registrou.

Continue em nosso aplicativo e ...

Ouça o áudio com a tela desligada
Ganhe Certificado após a conclusão
+ de 5000 cursos para você explorar!

ou continue lendo abaixo...

Baixar o aplicativo

Exemplo: 5.000 entregas registradas no sistema entre janeiro e março de 2025.
Impacto na leitura: a amostra pode não representar bem a população se houver vieses (por exemplo, só um período, só uma região, só um canal de venda). Mesmo em descrição, isso altera o que você pode afirmar com segurança.

Unidade de observação

Unidade de observação é “o que” cada linha do dataset representa. É uma decisão central: muda o significado de médias, contagens, proporções e comparações.

Exemplo 1 (linha = entrega): cada registro é uma entrega; variáveis podem ser tempo_de_entrega, distancia_km, regiao.
Exemplo 2 (linha = cliente): cada registro é um cliente; variáveis podem ser qtd_pedidos, gasto_total, tempo_medio_de_entrega.
Impacto na leitura: se você calcula “tempo médio de entrega” com unidade = entrega, clientes que compram muito pesam mais. Com unidade = cliente, cada cliente pesa igual (você descreve a experiência típica do cliente, não a entrega típica).

Variável

Variável é uma característica medida/registrada para cada unidade de observação (cada linha). Pode ser numérica, categórica, data/hora, texto codificado etc. O ponto-chave é: variável precisa de definição operacional (o que exatamente foi medido e em qual unidade).

Exemplo: idade (anos completos?), renda (mensal? bruta? em qual moeda?), status (quais categorias possíveis?), data_compra (fuso horário?).
Impacto na leitura: sem definição operacional, duas pessoas podem “descrever” a mesma coluna de formas incompatíveis (por exemplo, misturar renda mensal e anual).

Como cada escolha afeta a descrição (e como evitar confusões)

1) População e amostra: o “alcance” do que você descreve

Antes de qualquer cálculo, escreva uma frase do tipo:

População-alvo: “todas as entregas do e-commerce no Brasil em 2025”.
Amostra observada: “entregas registradas no sistema X entre 01/01/2025 e 31/03/2025, com status finalizado”.

Isso evita interpretações indevidas como generalizar um trimestre para o ano inteiro ou um canal para todos os canais.

2) Unidade de observação: o “peso” de cada registro

Dois erros comuns:

Duplicidade de unidade: achar que cada linha é um cliente, mas na verdade são pedidos (um cliente aparece várias vezes).
Agregação precoce: resumir por mês e depois tentar “detectar outliers” como se fossem entregas individuais.

Regra prática: se a pergunta é sobre indivíduos (clientes, pacientes), prefira unidade = indivíduo. Se a pergunta é sobre eventos (compras, entregas, atendimentos), prefira unidade = evento.

3) Variáveis: o “significado” do que será resumido

Para cada variável, registre:

Tipo: numérica, categórica, data/hora, identificador.
Unidade de medida: dias, reais, km, porcentagem.
Domínio esperado: por exemplo, tempo_de_entrega >= 0; idade entre 0 e 120; categorias permitidas em status.

Isso facilita detectar erros de digitação, codificações inconsistentes e valores impossíveis.

Identificando o objetivo da descrição (o que você quer enxergar)

O objetivo define quais resumos fazem sentido e quais gráficos/tabelas serão mais informativos. Três objetivos muito comuns:

Objetivo A: comparar grupos

Você quer saber se há diferenças entre categorias (regiões, turmas, canais, faixas etárias).

Pergunta típica: “O tempo de entrega difere entre regiões?”
O que preparar no dataset: uma variável de grupo bem definida (ex.: regiao com categorias padronizadas) e a variável de interesse (ex.: tempo_de_entrega).
Cuidados: grupos com poucos registros podem gerar descrições instáveis; registre o tamanho de cada grupo (n).

Objetivo B: entender a distribuição

Você quer entender como os valores se espalham: concentração, assimetria, dispersão, presença de caudas.

Pergunta típica: “A maioria das entregas ocorre em até quantos dias?”
O que preparar no dataset: garantir que a variável numérica esteja em uma única unidade e sem misturar escalas (dias vs horas).
Cuidados: datas e horários precisam de fuso e formato consistentes; valores faltantes devem ser codificados de forma única.

Objetivo C: detectar valores atípicos (outliers) e possíveis erros

Você quer encontrar registros muito fora do padrão para investigar: podem ser casos reais importantes ou erros de registro.

Pergunta típica: “Existem entregas com tempo negativo ou extremamente alto?”
O que preparar no dataset: regras de plausibilidade (mínimo/máximo) e variáveis auxiliares para checagem (ex.: data_postagem e data_entrega para validar tempo_de_entrega).
Cuidados: outlier não é automaticamente “erro”; registre o critério de sinalização e o que foi feito depois (manter, corrigir, excluir).

Registrando o contexto do conjunto de dados (para a descrição ser auditável)

Antes de calcular qualquer resumo, crie um “cartão de contexto” do dataset. Ele pode ser um bloco de texto no seu relatório, um arquivo README ou uma aba “Dicionário” na planilha.

Itens mínimos do contexto

Fonte: sistema, pesquisa, sensor, formulário; nome e versão se aplicável.
Período: datas de início e fim; se há sazonalidade relevante, registre.
Local/escopo: região, unidade, canal, produto, público-alvo.
Critérios de inclusão: o que entra (ex.: apenas pedidos finalizados; apenas maiores de 18).
Critérios de exclusão: o que sai (ex.: cancelados; testes internos; duplicados).
Definições operacionais: como cada variável foi calculada (ex.: tempo_de_entrega = data_entrega - data_postagem em dias corridos).
Tratamento de faltantes: como valores ausentes aparecem (vazio, NA, null, 0) e o que significam.

Exemplo de “cartão de contexto” (modelo)

Fonte: Sistema LogX (exportação CSV), tabela entregas_v2
Período: 01/01/2025 a 31/03/2025 (datas no fuso America/Sao_Paulo)
Unidade de observação: entrega (1 linha = 1 entrega)
População-alvo: entregas do e-commerce no Brasil em 2025
Amostra: entregas com status = 'finalizada' no período
Inclusão: pedidos do canal online, com CEP válido
Exclusão: cancelados, devoluções, registros de teste
Variáveis-chave:
  - tempo_de_entrega_dias = data_entrega - data_postagem (dias corridos)
  - regiao = {N, NE, CO, SE, S}
Faltantes: NA indica informação não registrada; 0 não é usado para faltante

Passo a passo prático: organizando o dataset antes de qualquer cálculo

Passo 1 — Defina a pergunta descritiva em uma frase

Exemplos:

“Descrever o tempo de entrega e comparar entre regiões no 1º trimestre de 2025.”
“Descrever a distribuição de gastos por cliente no último mês.”

Passo 2 — Confirme a unidade de observação (o que é uma linha)

Verifique se há identificadores e repetição esperada:

Se a unidade é “cliente”, o id_cliente deve ser único por linha.
Se a unidade é “pedido”, o id_pedido deve ser único por linha.

Passo 3 — Liste variáveis essenciais e classifique o tipo

Monte uma tabela simples (dicionário mínimo):

Variável	Tipo	Unidade/formatos	Descrição
tempo_de_entrega_dias	Numérica	dias (inteiro ou decimal)	Diferença entre postagem e entrega
regiao	Categórica	N, NE, CO, SE, S	Região do destino
data_postagem	Data/hora	YYYY-MM-DD	Data de postagem

Passo 4 — Padronize categorias e unidades

Categorias: garanta que “SP”, “São Paulo” e “Sao Paulo” não coexistam se representam a mesma coisa.
Unidades: não misture km e milhas; dias e horas; moeda em R$ e US$ na mesma coluna.

Passo 5 — Verifique faltantes, duplicidades e valores impossíveis

Faltantes: conte quantos NA existem por variável e se faltante significa “não aplicável” ou “não registrado”.
Duplicidades: procure IDs repetidos quando deveriam ser únicos.
Valores impossíveis: tempo negativo, idade > 120, datas no futuro (se não fizer sentido).

Passo 6 — Registre critérios de inclusão/exclusão (antes de filtrar)

Escreva as regras e só depois aplique filtros. Exemplo:

Incluir apenas status = 'finalizada'.
Excluir tempo_de_entrega_dias faltante.
Excluir registros de teste (flag_teste = 1).

Isso evita “ajustar o filtro” para obter um resultado desejado sem perceber.

Passo 7 — Crie uma versão “pronta para descrição”

Salve uma cópia do dataset com:

colunas renomeadas de forma consistente,
tipos corretos (número, data, categoria),
categorias padronizadas,
um arquivo/aba com o dicionário e o cartão de contexto.

Mini-checklist prático (antes de qualquer cálculo)

Objetivo: vou comparar grupos, entender distribuição ou detectar outliers?
População-alvo: está escrita em uma frase?
Amostra: de onde veio, qual período e qual escopo?
Unidade de observação: cada linha representa exatamente o quê?
Variáveis: tenho definição operacional e unidade de medida?
Tipos de dados: números são números, datas são datas, categorias são categorias?
Categorias padronizadas: não há duplicidade de rótulos para a mesma categoria?
Faltantes: sei quantos são e o que significam?
Regras de plausibilidade: limites mínimos/máximos fazem sentido e foram checados?
Inclusão/exclusão: critérios registrados antes de filtrar?
Rastreabilidade: cartão de contexto + dicionário de variáveis estão salvos junto do dataset?

Agora responda o exercício sobre o conteúdo:

Ao calcular o “tempo médio de entrega”, qual situação descreve corretamente o efeito de escolher diferentes unidades de observação?

Você acertou! Parabéns, agora siga para a próxima página

Você errou! Tente novamente.

A unidade de observação define o “peso” de cada registro. Se cada linha é uma entrega, clientes com muitas entregas influenciam mais a média. Se cada linha é um cliente, cada cliente contribui uma vez, descrevendo a experiência típica do cliente.