Estatística Descritiva do Zero: projeto final de descrição completa de um conjunto de dados

Capítulo 13

Tempo estimado de leitura: 9 minutos

+ Exercício

O que é o projeto final e qual é a entrega esperada

Este projeto final reúne, em um único fluxo de trabalho, as principais entregas de uma descrição estatística: um conjunto de dados simples, um objetivo de descrição bem definido, uma limpeza mínima documentada, tabelas e gráficos adequados, medidas numéricas (tendência central, dispersão e separatrizes) e um relatório curto e interpretável. A ideia não é “provar” hipóteses nem fazer inferência; é produzir um retrato fiel e útil do dataset, com escolhas justificadas e limitações explicitadas.

A entrega final deve permitir que outra pessoa entenda: (1) o que foi analisado, (2) como os dados foram preparados, (3) quais resumos foram produzidos, (4) o que esses resumos sugerem, e (5) onde estão as incertezas e restrições.

Dataset sugerido (simples e completo) para o projeto

Para padronizar o projeto, use um dataset pequeno e realista de “vendas de cafeteria” (30 a 200 linhas). Você pode montar em planilha ou CSV. Abaixo está um modelo de variáveis (colunas) recomendado, com tipos mistos para permitir todas as análises pedidas.

  • id_compra (identificador)
  • data (data da compra)
  • turno (Manhã/Tarde/Noite) — qualitativa
  • categoria (Bebida/Comida) — qualitativa
  • produto (ex.: Café, Cappuccino, Pão de queijo) — qualitativa
  • forma_pagamento (Dinheiro/Cartão/Pix) — qualitativa
  • preco_unitario (R$) — quantitativa
  • quantidade — quantitativa discreta
  • valor_total (R$) — quantitativa (pode ser calculada como preco_unitario * quantidade)
  • tempo_espera_min (minutos) — quantitativa

Se você preferir outro tema (academia, transporte, notas de prova, atendimento), mantenha a mesma lógica: pelo menos 2 variáveis qualitativas e 2 quantitativas, com uma variável “principal” para descrever e uma variável de grupo para comparar.

Definição do objetivo (o que você vai descrever)

Escreva 1 a 3 objetivos descritivos, específicos e mensuráveis. Exemplos (escolha um conjunto coerente):

Continue em nosso aplicativo e ...
  • Ouça o áudio com a tela desligada
  • Ganhe Certificado após a conclusão
  • + de 5000 cursos para você explorar!
ou continue lendo abaixo...
Download App

Baixar o aplicativo

  • Objetivo A (principal): descrever a distribuição de valor_total e identificar valores típicos e variação.
  • Objetivo B (operacional): descrever tempo_espera_min e verificar se há assimetria e possíveis valores atípicos.
  • Objetivo C (comparação): comparar valor_total por turno (ou por forma_pagamento), usando tabela-resumo e gráficos.

Inclua também 2 a 4 perguntas-guia que o relatório deve responder, por exemplo: “Qual é o ticket típico?”, “A distribuição é simétrica ou concentrada?”, “Há diferenças visíveis entre turnos?”

Passo a passo prático (roteiro de execução)

1) Carregar dados e conferir estrutura

Checklist mínimo:

  • Contar linhas e colunas.
  • Listar variáveis e tipos esperados (qualitativa/quantitativa).
  • Verificar se há duplicatas de id_compra (se existir identificador).

Exemplo de tabela de “dicionário de dados” (inclua no relatório):

VariávelTipoUnidadeDescriçãoExemplo
valor_totalQuantitativaR$Valor pago na compra18,50
turnoQualitativa-Faixa do diaManhã
tempo_espera_minQuantitativaminTempo até receber pedido7

2) Limpeza mínima (documentada e reprodutível)

Faça apenas o necessário para descrever corretamente, sem “forçar” os dados. Registre tudo em uma seção “Tratamento de dados”. Exemplos de ações típicas:

  • Padronização de categorias: corrigir grafias (ex.: “pix”, “Pix”, “PIX” → “Pix”).
  • Conversão de tipos: garantir que preco_unitario, valor_total e tempo_espera_min sejam numéricos.
  • Valores faltantes: contar faltantes por variável e decidir: remover linhas (se poucas e justificável) ou manter e sinalizar.
  • Regras de validade: quantidade > 0, valor_total > 0, tempo_espera_min >= 0. Valores fora disso devem ser corrigidos se houver fonte confiável; caso contrário, marcar como ausente ou excluir com justificativa.
  • Consistência: se valor_total existir e preco_unitario e quantidade também, conferir se valor_total ≈ preco_unitario * quantidade (diferenças pequenas podem ser arredondamento).

Modelo de registro (inclua no relatório):

ProblemaComo detectouAçãoImpacto
Categorias inconsistentes em forma_pagamentoContagem de níveisPadronizei para {Dinheiro, Cartão, Pix}Melhora comparabilidade
2 valores negativos em tempo_espera_minRegra de validadeDefinidos como ausentesN reduzido nas medidas de espera

3) Tabelas de frequência (qualitativas)

Escolha 1 a 3 variáveis qualitativas relevantes (ex.: turno, categoria, forma_pagamento). Produza:

  • Frequência absoluta
  • Frequência relativa (%)
  • (Opcional) ranking dos 5 produtos mais vendidos

Inclua uma interpretação curta por tabela, focando no que é mais frequente e no que é raro (sem extrapolar).

4) Tabelas de frequência (quantitativas) e decisão: dados brutos vs. agrupados

Escolha 1 variável quantitativa principal (ex.: valor_total) e decida:

  • Usar dados brutos quando N é pequeno/médio e a leitura de valores individuais faz sentido (ex.: até ~50–80 observações, dependendo do caso).
  • Agrupar em classes quando N é maior, há muitos valores distintos, ou você quer enfatizar a forma da distribuição (concentração, caudas). Nesse caso, explique o critério de classes (largura, número de classes) e mantenha intervalos interpretáveis (ex.: faixas de R$ 5).

No relatório, registre a justificativa: “Optei por dados agrupados porque a variável tem muitos valores distintos e o objetivo é visualizar a distribuição por faixas de preço”.

5) Gráficos essenciais (seleção mínima)

Inclua um conjunto pequeno e suficiente de gráficos, cada um com objetivo claro:

  • Para qualitativas: gráfico de barras (ex.: forma_pagamento) com ordenação por frequência.
  • Para quantitativas: histograma (ou barras por classes) de valor_total.
  • Para comparação entre grupos: boxplot de valor_total por turno (ou por categoria).

Regras de qualidade: eixos com unidade, título descritivo, escalas coerentes, e evitar excesso de gráficos redundantes.

6) Medidas numéricas: tendência central, dispersão e separatrizes

Para cada variável quantitativa analisada (pelo menos valor_total e mais uma, como tempo_espera_min), calcule e apresente em uma tabela:

  • Tendência central: média, mediana (e moda se fizer sentido).
  • Dispersão: mínimo, máximo, amplitude, desvio-padrão (e variância se exigido), IQR (amplitude interquartil).
  • Separatrizes: Q1, Q2 (mediana), Q3; e pelo menos 1 percentil relevante (ex.: P90 para “picos” de espera).

Inclua a justificativa “média vs. mediana” baseada no formato observado (assimetria, outliers). Exemplos de justificativas aceitáveis:

  • “Usei a mediana como valor típico de valor_total porque o histograma e o boxplot indicam assimetria à direita e alguns valores altos isolados.”
  • “Usei a média como resumo principal de tempo_espera_min porque a distribuição é aproximadamente simétrica e não há valores extremos relevantes após a limpeza.”

7) Tabela-resumo por grupo (comparações)

Crie uma tabela com estatísticas por grupo (ex.: por turno). Recomenda-se incluir:

  • N (tamanho do grupo)
  • Mediana e média de valor_total
  • Q1 e Q3 (ou IQR)
  • Desvio-padrão (se fizer sentido)

Exemplo de estrutura:

Grupo (turno)NMédia (R$)Mediana (R$)Q1 (R$)Q3 (R$)DP (R$)
Manhã..................
Tarde..................
Noite..................

Interprete com cuidado: descreva diferenças observadas e destaque quando N é pequeno em algum grupo (o que reduz estabilidade do resumo).

Modelo de relatório descritivo curto (estrutura padronizada)

Use esta estrutura para entregar seu projeto. Ela é curta, mas completa.

1) Contexto e objetivo

  • Descrição do dataset (tema, período, N).
  • Objetivos (1 a 3) e perguntas-guia.
  • Variáveis analisadas e por quê (principal e secundárias).

2) Dicionário de dados

  • Tabela com variáveis, tipos, unidades e exemplos.

3) Tratamento e qualidade dos dados

  • O que foi verificado (faltantes, duplicatas, validade).
  • O que foi corrigido/padronizado e critérios.
  • Quantas linhas ficaram após limpeza (se mudou).

4) Descrição das variáveis qualitativas

  • Tabelas de frequência (com %).
  • 1 gráfico de barras principal.
  • 2 a 5 frases interpretando padrões (concentração, categorias raras).

5) Descrição das variáveis quantitativas

  • Gráfico(s): histograma e boxplot (quando aplicável).
  • Tabela de medidas: média, mediana, DP, min, max, Q1, Q3, IQR, P90 (ou outro percentil relevante).
  • Justificativa explícita: por que a medida “típica” escolhida é média ou mediana.
  • Decisão explícita: dados brutos vs. agrupados (e critério).

6) Comparações entre grupos (se aplicável)

  • Definição do grupo (ex.: turno).
  • Tabela-resumo por grupo.
  • Boxplot por grupo (ou outro gráfico coerente).
  • Interpretação: diferenças observadas, sem atribuir causalidade.

7) Limitações e cuidados de interpretação

  • Representatividade (amostra pequena? período curto? apenas uma loja?).
  • Possíveis vieses (horários sem registro, promoções, dias especiais).
  • Qualidade de medição (tempo de espera estimado? arredondamentos?).
  • Impacto de faltantes e exclusões (o que pode ter mudado).

Roteiro de entrega (checklist com critérios de qualidade)

Arquivos e organização

  • Arquivo 1: relatório em PDF (ou documento) seguindo a estrutura padronizada.
  • Arquivo 2: dataset final (CSV/planilha) após limpeza mínima.
  • Arquivo 3 (opcional): script ou registro das etapas (mesmo que seja um “log” manual) para reprodutibilidade.

Critérios de qualidade (o que será avaliado)

  • Clareza do objetivo: objetivos específicos e alinhados às análises apresentadas.
  • Coerência das escolhas: gráficos e tabelas adequados ao tipo de variável; justificativa para média vs. mediana; justificativa para agrupamento.
  • Limpeza mínima bem documentada: o leitor entende o que mudou e por quê; sem “sumir” com dados sem explicação.
  • Correção técnica: percentuais somam ~100% (considerando arredondamento); medidas calculadas com N correto (tratamento de ausentes); unidades explícitas.
  • Interpretação cuidadosa: descreve padrões sem extrapolar; menciona tamanho de grupos; evita causalidade.
  • Limitações explícitas: pelo menos 3 limitações relevantes e seu possível impacto.
  • Apresentação: tabelas legíveis, gráficos com eixos e escalas, texto curto e objetivo.

Exemplo de “mini-relatório” (texto-modelo para você adaptar)

Contexto e objetivo (exemplo)

O dataset contém 120 compras registradas em uma cafeteria ao longo de 7 dias. O objetivo principal é descrever o comportamento de valor_total (ticket) e tempo_espera_min, além de comparar o ticket entre turnos (Manhã/Tarde/Noite).

Escolhas justificadas (exemplo)

  • Medida típica: a mediana foi usada como resumo principal do ticket porque o boxplot indica assimetria à direita e alguns tickets altos isolados, que elevam a média.
  • Agrupamento: o histograma de valor_total foi construído com classes de R$ 5 para facilitar a leitura por faixas de gasto e reduzir ruído de valores únicos.
  • Percentil: foi reportado P90 de tempo_espera_min para representar “picos” de espera (situações mais críticas), além de Q1 e Q3.

Interpretação cuidadosa (exemplo)

Observa-se concentração de compras em tickets baixos a moderados, com cauda à direita. No comparativo por turno, a noite apresenta maior dispersão do ticket (IQR maior), enquanto a manhã concentra valores mais próximos. Essas diferenças descrevem o padrão observado no período analisado e podem variar em semanas com promoções, sazonalidade ou mudanças de equipe.

Agora responda o exercício sobre o conteúdo:

Em um projeto de estatística descritiva com objetivo de “produzir um retrato fiel e útil do dataset”, qual abordagem está mais alinhada com a entrega esperada?

Você acertou! Parabéns, agora siga para a próxima página

Você errou! Tente novamente.

A entrega esperada é descritiva: preparar dados com limpeza mínima documentada, resumir com tabelas/gráficos e medidas numéricas, interpretar com cuidado e explicitar incertezas e limitações, sem fazer inferência ou causalidade.

Capa do Ebook gratuito Estatística Descritiva do Zero: Como Entender e Resumir Dados
100%

Estatística Descritiva do Zero: Como Entender e Resumir Dados

Novo curso

13 páginas

Baixe o app para ganhar Certificação grátis e ouvir os cursos em background, mesmo com a tela desligada.