O que é o projeto final e qual é a entrega esperada
Este projeto final reúne, em um único fluxo de trabalho, as principais entregas de uma descrição estatística: um conjunto de dados simples, um objetivo de descrição bem definido, uma limpeza mínima documentada, tabelas e gráficos adequados, medidas numéricas (tendência central, dispersão e separatrizes) e um relatório curto e interpretável. A ideia não é “provar” hipóteses nem fazer inferência; é produzir um retrato fiel e útil do dataset, com escolhas justificadas e limitações explicitadas.
A entrega final deve permitir que outra pessoa entenda: (1) o que foi analisado, (2) como os dados foram preparados, (3) quais resumos foram produzidos, (4) o que esses resumos sugerem, e (5) onde estão as incertezas e restrições.
Dataset sugerido (simples e completo) para o projeto
Para padronizar o projeto, use um dataset pequeno e realista de “vendas de cafeteria” (30 a 200 linhas). Você pode montar em planilha ou CSV. Abaixo está um modelo de variáveis (colunas) recomendado, com tipos mistos para permitir todas as análises pedidas.
- id_compra (identificador)
- data (data da compra)
- turno (Manhã/Tarde/Noite) — qualitativa
- categoria (Bebida/Comida) — qualitativa
- produto (ex.: Café, Cappuccino, Pão de queijo) — qualitativa
- forma_pagamento (Dinheiro/Cartão/Pix) — qualitativa
- preco_unitario (R$) — quantitativa
- quantidade — quantitativa discreta
- valor_total (R$) — quantitativa (pode ser calculada como
preco_unitario * quantidade) - tempo_espera_min (minutos) — quantitativa
Se você preferir outro tema (academia, transporte, notas de prova, atendimento), mantenha a mesma lógica: pelo menos 2 variáveis qualitativas e 2 quantitativas, com uma variável “principal” para descrever e uma variável de grupo para comparar.
Definição do objetivo (o que você vai descrever)
Escreva 1 a 3 objetivos descritivos, específicos e mensuráveis. Exemplos (escolha um conjunto coerente):
- Ouça o áudio com a tela desligada
- Ganhe Certificado após a conclusão
- + de 5000 cursos para você explorar!
Baixar o aplicativo
- Objetivo A (principal): descrever a distribuição de
valor_totale identificar valores típicos e variação. - Objetivo B (operacional): descrever
tempo_espera_mine verificar se há assimetria e possíveis valores atípicos. - Objetivo C (comparação): comparar
valor_totalporturno(ou porforma_pagamento), usando tabela-resumo e gráficos.
Inclua também 2 a 4 perguntas-guia que o relatório deve responder, por exemplo: “Qual é o ticket típico?”, “A distribuição é simétrica ou concentrada?”, “Há diferenças visíveis entre turnos?”
Passo a passo prático (roteiro de execução)
1) Carregar dados e conferir estrutura
Checklist mínimo:
- Contar linhas e colunas.
- Listar variáveis e tipos esperados (qualitativa/quantitativa).
- Verificar se há duplicatas de
id_compra(se existir identificador).
Exemplo de tabela de “dicionário de dados” (inclua no relatório):
| Variável | Tipo | Unidade | Descrição | Exemplo |
|---|---|---|---|---|
| valor_total | Quantitativa | R$ | Valor pago na compra | 18,50 |
| turno | Qualitativa | - | Faixa do dia | Manhã |
| tempo_espera_min | Quantitativa | min | Tempo até receber pedido | 7 |
2) Limpeza mínima (documentada e reprodutível)
Faça apenas o necessário para descrever corretamente, sem “forçar” os dados. Registre tudo em uma seção “Tratamento de dados”. Exemplos de ações típicas:
- Padronização de categorias: corrigir grafias (ex.: “pix”, “Pix”, “PIX” → “Pix”).
- Conversão de tipos: garantir que
preco_unitario,valor_totaletempo_espera_minsejam numéricos. - Valores faltantes: contar faltantes por variável e decidir: remover linhas (se poucas e justificável) ou manter e sinalizar.
- Regras de validade:
quantidade > 0,valor_total > 0,tempo_espera_min >= 0. Valores fora disso devem ser corrigidos se houver fonte confiável; caso contrário, marcar como ausente ou excluir com justificativa. - Consistência: se
valor_totalexistir epreco_unitarioequantidadetambém, conferir sevalor_total ≈ preco_unitario * quantidade(diferenças pequenas podem ser arredondamento).
Modelo de registro (inclua no relatório):
| Problema | Como detectou | Ação | Impacto |
|---|---|---|---|
| Categorias inconsistentes em forma_pagamento | Contagem de níveis | Padronizei para {Dinheiro, Cartão, Pix} | Melhora comparabilidade |
| 2 valores negativos em tempo_espera_min | Regra de validade | Definidos como ausentes | N reduzido nas medidas de espera |
3) Tabelas de frequência (qualitativas)
Escolha 1 a 3 variáveis qualitativas relevantes (ex.: turno, categoria, forma_pagamento). Produza:
- Frequência absoluta
- Frequência relativa (%)
- (Opcional) ranking dos 5 produtos mais vendidos
Inclua uma interpretação curta por tabela, focando no que é mais frequente e no que é raro (sem extrapolar).
4) Tabelas de frequência (quantitativas) e decisão: dados brutos vs. agrupados
Escolha 1 variável quantitativa principal (ex.: valor_total) e decida:
- Usar dados brutos quando N é pequeno/médio e a leitura de valores individuais faz sentido (ex.: até ~50–80 observações, dependendo do caso).
- Agrupar em classes quando N é maior, há muitos valores distintos, ou você quer enfatizar a forma da distribuição (concentração, caudas). Nesse caso, explique o critério de classes (largura, número de classes) e mantenha intervalos interpretáveis (ex.: faixas de R$ 5).
No relatório, registre a justificativa: “Optei por dados agrupados porque a variável tem muitos valores distintos e o objetivo é visualizar a distribuição por faixas de preço”.
5) Gráficos essenciais (seleção mínima)
Inclua um conjunto pequeno e suficiente de gráficos, cada um com objetivo claro:
- Para qualitativas: gráfico de barras (ex.: forma_pagamento) com ordenação por frequência.
- Para quantitativas: histograma (ou barras por classes) de
valor_total. - Para comparação entre grupos: boxplot de
valor_totalporturno(ou porcategoria).
Regras de qualidade: eixos com unidade, título descritivo, escalas coerentes, e evitar excesso de gráficos redundantes.
6) Medidas numéricas: tendência central, dispersão e separatrizes
Para cada variável quantitativa analisada (pelo menos valor_total e mais uma, como tempo_espera_min), calcule e apresente em uma tabela:
- Tendência central: média, mediana (e moda se fizer sentido).
- Dispersão: mínimo, máximo, amplitude, desvio-padrão (e variância se exigido), IQR (amplitude interquartil).
- Separatrizes: Q1, Q2 (mediana), Q3; e pelo menos 1 percentil relevante (ex.: P90 para “picos” de espera).
Inclua a justificativa “média vs. mediana” baseada no formato observado (assimetria, outliers). Exemplos de justificativas aceitáveis:
- “Usei a mediana como valor típico de
valor_totalporque o histograma e o boxplot indicam assimetria à direita e alguns valores altos isolados.” - “Usei a média como resumo principal de
tempo_espera_minporque a distribuição é aproximadamente simétrica e não há valores extremos relevantes após a limpeza.”
7) Tabela-resumo por grupo (comparações)
Crie uma tabela com estatísticas por grupo (ex.: por turno). Recomenda-se incluir:
- N (tamanho do grupo)
- Mediana e média de
valor_total - Q1 e Q3 (ou IQR)
- Desvio-padrão (se fizer sentido)
Exemplo de estrutura:
| Grupo (turno) | N | Média (R$) | Mediana (R$) | Q1 (R$) | Q3 (R$) | DP (R$) |
|---|---|---|---|---|---|---|
| Manhã | ... | ... | ... | ... | ... | ... |
| Tarde | ... | ... | ... | ... | ... | ... |
| Noite | ... | ... | ... | ... | ... | ... |
Interprete com cuidado: descreva diferenças observadas e destaque quando N é pequeno em algum grupo (o que reduz estabilidade do resumo).
Modelo de relatório descritivo curto (estrutura padronizada)
Use esta estrutura para entregar seu projeto. Ela é curta, mas completa.
1) Contexto e objetivo
- Descrição do dataset (tema, período, N).
- Objetivos (1 a 3) e perguntas-guia.
- Variáveis analisadas e por quê (principal e secundárias).
2) Dicionário de dados
- Tabela com variáveis, tipos, unidades e exemplos.
3) Tratamento e qualidade dos dados
- O que foi verificado (faltantes, duplicatas, validade).
- O que foi corrigido/padronizado e critérios.
- Quantas linhas ficaram após limpeza (se mudou).
4) Descrição das variáveis qualitativas
- Tabelas de frequência (com %).
- 1 gráfico de barras principal.
- 2 a 5 frases interpretando padrões (concentração, categorias raras).
5) Descrição das variáveis quantitativas
- Gráfico(s): histograma e boxplot (quando aplicável).
- Tabela de medidas: média, mediana, DP, min, max, Q1, Q3, IQR, P90 (ou outro percentil relevante).
- Justificativa explícita: por que a medida “típica” escolhida é média ou mediana.
- Decisão explícita: dados brutos vs. agrupados (e critério).
6) Comparações entre grupos (se aplicável)
- Definição do grupo (ex.: turno).
- Tabela-resumo por grupo.
- Boxplot por grupo (ou outro gráfico coerente).
- Interpretação: diferenças observadas, sem atribuir causalidade.
7) Limitações e cuidados de interpretação
- Representatividade (amostra pequena? período curto? apenas uma loja?).
- Possíveis vieses (horários sem registro, promoções, dias especiais).
- Qualidade de medição (tempo de espera estimado? arredondamentos?).
- Impacto de faltantes e exclusões (o que pode ter mudado).
Roteiro de entrega (checklist com critérios de qualidade)
Arquivos e organização
- Arquivo 1: relatório em PDF (ou documento) seguindo a estrutura padronizada.
- Arquivo 2: dataset final (CSV/planilha) após limpeza mínima.
- Arquivo 3 (opcional): script ou registro das etapas (mesmo que seja um “log” manual) para reprodutibilidade.
Critérios de qualidade (o que será avaliado)
- Clareza do objetivo: objetivos específicos e alinhados às análises apresentadas.
- Coerência das escolhas: gráficos e tabelas adequados ao tipo de variável; justificativa para média vs. mediana; justificativa para agrupamento.
- Limpeza mínima bem documentada: o leitor entende o que mudou e por quê; sem “sumir” com dados sem explicação.
- Correção técnica: percentuais somam ~100% (considerando arredondamento); medidas calculadas com N correto (tratamento de ausentes); unidades explícitas.
- Interpretação cuidadosa: descreve padrões sem extrapolar; menciona tamanho de grupos; evita causalidade.
- Limitações explícitas: pelo menos 3 limitações relevantes e seu possível impacto.
- Apresentação: tabelas legíveis, gráficos com eixos e escalas, texto curto e objetivo.
Exemplo de “mini-relatório” (texto-modelo para você adaptar)
Contexto e objetivo (exemplo)
O dataset contém 120 compras registradas em uma cafeteria ao longo de 7 dias. O objetivo principal é descrever o comportamento de valor_total (ticket) e tempo_espera_min, além de comparar o ticket entre turnos (Manhã/Tarde/Noite).
Escolhas justificadas (exemplo)
- Medida típica: a mediana foi usada como resumo principal do ticket porque o boxplot indica assimetria à direita e alguns tickets altos isolados, que elevam a média.
- Agrupamento: o histograma de
valor_totalfoi construído com classes de R$ 5 para facilitar a leitura por faixas de gasto e reduzir ruído de valores únicos. - Percentil: foi reportado P90 de
tempo_espera_minpara representar “picos” de espera (situações mais críticas), além de Q1 e Q3.
Interpretação cuidadosa (exemplo)
Observa-se concentração de compras em tickets baixos a moderados, com cauda à direita. No comparativo por turno, a noite apresenta maior dispersão do ticket (IQR maior), enquanto a manhã concentra valores mais próximos. Essas diferenças descrevem o padrão observado no período analisado e podem variar em semanas com promoções, sazonalidade ou mudanças de equipe.