Estatística Descritiva do Zero: boas práticas de interpretação e prevenção de conclusões apressadas

Capítulo 12

Tempo estimado de leitura: 9 minutos

+ Exercício

O que significa interpretar estatística descritiva com responsabilidade

Estatística descritiva resume o que está nos dados observados. Interpretar com responsabilidade significa: (1) deixar claro o que exatamente foi medido, (2) reconhecer limites do conjunto de dados (quem entrou e quem ficou de fora), e (3) evitar transformar um resumo (média, mediana, percentis, gráficos) em uma afirmação que o dado não sustenta (por exemplo, causalidade, generalizações para outras populações, ou “provas” de um efeito).

Boas práticas de interpretação reduzem erros comuns como: comparar grupos com amostras muito diferentes, ignorar dados faltantes, “se apaixonar” por um gráfico sem verificar números, ou concluir que um outlier é “erro” sem investigar.

Práticas essenciais antes de interpretar qualquer tabela ou gráfico

1) Verifique o tamanho da amostra (n) e a base de comparação

Sem n, um resumo fica sem contexto. Uma média de satisfação de 4,7 pode vir de 10 respostas (instável) ou de 10.000 (mais estável). Além disso, ao comparar grupos, verifique se os tamanhos são muito diferentes, pois isso afeta a leitura de percentuais e a presença de casos raros.

  • Regra prática: sempre reporte n total e n por grupo ao lado de percentuais e medidas.
  • Cuidado: percentuais podem enganar quando n é pequeno (ex.: 50% pode ser 1 em 2).

2) Procure vieses de seleção (quem entrou no dataset?)

Viés de seleção ocorre quando os dados representam apenas uma parte específica da população, de forma não aleatória. Isso não “invalida” a descrição, mas limita o que pode ser afirmado.

  • Perguntas rápidas: os dados vêm de quem respondeu voluntariamente? de quem comprou? de quem permaneceu até o fim? de um horário específico? de uma região?
  • Exemplo: um questionário sobre satisfação respondido apenas por usuários que abriram o e-mail pode super-representar pessoas mais engajadas.

3) Avalie dados faltantes (missing) e como eles afetam o resumo

Dados faltantes podem distorcer médias, percentis e proporções, especialmente se o “faltar” não for aleatório (por exemplo, pessoas com renda mais alta omitindo renda).

Continue em nosso aplicativo e ...
  • Ouça o áudio com a tela desligada
  • Ganhe Certificado após a conclusão
  • + de 5000 cursos para você explorar!
ou continue lendo abaixo...
Download App

Baixar o aplicativo

  • Passo mínimo: quantifique o faltante por variável e por grupo (ex.: % de missing em cada faixa etária).
  • Interpretação responsável: deixe explícito se as estatísticas foram calculadas com base em casos completos (n efetivo menor).
Variáveln totaln válido% faltante
Renda100082018%
Idade10009950,5%

4) Investigue outliers sem “apagar” automaticamente

Valores atípicos podem ser: erro de digitação/medição, caso real raro, ou sinal de subgrupos (por exemplo, clientes corporativos em uma base de clientes pessoa física). Remover sem critério pode esconder informação; manter sem checar pode distorcer a média.

  • Passo prático: liste os maiores/menores valores e confira unidade, escala e plausibilidade (ex.: idade 222, salário negativo, altura 3,5m).
  • Boa prática: reporte estatísticas robustas (mediana, percentis) junto com média quando houver assimetria/outliers.
  • Transparência: se houver tratamento (correção, remoção, winsorização), descreva a regra e quantos casos foram afetados.

5) Confirme a adequação das medidas ao tipo de dado e à distribuição

Mesmo quando as medidas já foram calculadas, a interpretação precisa checar se elas fazem sentido para o fenômeno.

  • Distribuição assimétrica: média pode ser puxada por poucos valores altos; mediana e percentis costumam descrever melhor o “típico”.
  • Dados com teto/chão: escalas limitadas (0–10) podem concentrar valores no topo; compare percentis e proporções por faixa.
  • Comparações entre grupos: use a mesma métrica e a mesma regra de cálculo (mesma base, mesmo período, mesma definição).

Passo a passo prático: roteiro de interpretação antes de escrever qualquer insight

Passo 1: Declare o recorte e a unidade de análise

  • Recorte: período, região, canal, produto, etc.
  • Unidade: pessoa, pedido, sessão, empresa. (Evita confundir “por cliente” com “por compra”.)

Passo 2: Verifique consistência básica do dataset

  • n total e n por grupo
  • percentual de faltantes por variável-chave
  • valores impossíveis ou fora de faixa

Passo 3: Leia o gráfico e confirme com números

Gráficos ajudam a ver padrões, mas a redação deve se apoiar em valores. Sempre que um gráfico sugerir diferença, confirme com uma tabela-resumo (média/mediana/percentis, contagens e proporções).

  • Exemplo de checagem: “parece que o Grupo A tem valores maiores” → confira mediana e P25–P75 de A e B, e os n.

Passo 4: Faça perguntas de robustez (sensibilidade)

Sem entrar em inferência estatística, você pode testar se o resumo muda muito com escolhas simples.

  • O resultado muda ao usar mediana em vez de média?
  • O resultado muda ao excluir registros claramente inválidos?
  • O resultado muda ao analisar por subgrupos relevantes (ex.: por região, por faixa etária)?

Passo 5: Escreva a interpretação com limites explícitos

  • O que os dados mostram (descritivo)
  • Para quem/onde/quando isso vale (escopo)
  • O que não dá para afirmar (limitações)

Correlação visual não é causalidade: como evitar o erro

Como a “causalidade” aparece disfarçada em descrições

É comum um gráfico de dispersão ou duas séries temporais “andando juntas” sugerirem que uma variável causa a outra. Na estatística descritiva, você pode dizer que há associação ou co-movimento, mas não que uma coisa “provoca” a outra.

Sinais de alerta de falsa causalidade

  • Variável de confusão: uma terceira variável explica ambas (ex.: renda influencia tanto acesso quanto consumo).
  • Causalidade reversa: o sentido pode ser o oposto do sugerido.
  • Coincidência temporal: duas séries sobem por tendência geral (crescimento do mercado, sazonalidade).
  • Seleção: o grupo “tratado” é diferente desde o início (ex.: quem escolhe um plano premium já tem perfil distinto).

Como redigir sem sugerir causalidade

  • Prefira: “está associado a”, “ocorre junto com”, “é maior entre”, “há diferença descritiva”.
  • Evite: “leva a”, “faz com que”, “impacta”, “melhora” (a menos que haja desenho causal fora do escopo descritivo).

Evite generalizações além do dataset (escopo e validade externa)

Uma descrição é válida para o conjunto observado e para recortes equivalentes. Generalizar exige cuidado com representatividade e com mudanças de contexto.

  • Exemplo: “No nosso app, usuários do iOS têm maior ticket médio” não implica “usuários de iOS sempre gastam mais” em qualquer empresa, país ou período.
  • Boa prática: sempre inclua o recorte: período, local, população observada, critérios de inclusão.

Guia de redação: frases-modelo para conclusões descritivas

Modelos para descrever nível (típico) e dispersão

  • Mediana e faixa interquartil: “No período analisado, a mediana de X foi __, com 50% dos valores entre __ (P25) e __ (P75), considerando n=__ observações válidas.”
  • Média e desvio-padrão (quando apropriado): “A média de X foi __ (DP=__), indicando variação moderada/alta/baixa dentro do conjunto observado.”

Modelos para comparar grupos sem exagerar

  • “O Grupo A apresentou mediana de X maior do que o Grupo B (__ vs __), com n_A=__ e n_B=__.”
  • “A proporção de Y foi maior no Grupo A (__%) do que no Grupo B (__%), mantendo a mesma base de cálculo (n válido por grupo).”
  • “A diferença observada é descritiva e se refere ao recorte __; não permite concluir causalidade.”

Modelos para lidar com dados faltantes e outliers

  • “As estatísticas de X foram calculadas com n=__ registros válidos; __% estavam faltantes.”
  • “Foram identificados valores extremos em X; por transparência, reportamos mediana e percentis além da média.”
  • “Após remover/corrigir __ registros com valores impossíveis (regra: __), os resumos permaneceram semelhantes/diferiram em __.”

Modelos para associação (sem causalidade)

  • “Observa-se uma associação entre X e Y: valores maiores de X tendem a ocorrer junto com valores maiores/menores de Y no conjunto analisado.”
  • “O padrão visual sugere co-movimento entre as séries X e Y no período __; esta análise é descritiva e não identifica causa.”

Checklist final: consistência entre tabela, gráfico e texto

Checklist de validação (use antes de publicar)

  • Base e recorte: o texto informa período, população e unidade de análise? Os mesmos filtros foram usados em tabela e gráfico?
  • n explícito: n total e n por grupo aparecem (ou estão facilmente inferíveis)?
  • Missing: o % de faltantes foi reportado quando relevante? O n válido confere com o que foi usado nos cálculos?
  • Medidas coerentes: a medida citada no texto é a mesma exibida na tabela (média vs mediana)? A unidade está correta (R$, %, dias)?
  • Escalas e eixos: o gráfico não está “ampliando” diferenças por eixo truncado sem aviso? As escalas são comparáveis entre painéis?
  • Percentuais: percentuais somam 100% quando deveriam? A base do percentual está clara (por linha, por coluna, total)?
  • Outliers: se há valores extremos, o texto reconhece e evita generalizar a partir deles? Há estatística robusta para apoiar?
  • Comparações justas: grupos comparados têm definição consistente? Não há mistura de períodos ou critérios diferentes?
  • Linguagem: o texto evita verbos causais (“causou”, “impactou”) e usa termos descritivos (“associado”, “observa-se”)?
  • Consistência numérica: números citados no texto batem com a tabela (mesmas casas decimais, arredondamento consistente)?
  • Limites: o texto delimita o escopo e evita extrapolar para além do dataset?

Mini-exemplo de checagem de consistência

Tabela: Grupo A mediana=12 (n=80); Grupo B mediana=10 (n=20) Texto correto: "No recorte analisado, o Grupo A apresentou mediana maior (12) do que o Grupo B (10), com n_A=80 e n_B=20." Texto incorreto: "O Grupo A é melhor e por isso causa aumento de 20%" (causalidade + número não mostrado)

Agora responda o exercício sobre o conteúdo:

Ao interpretar uma diferença observada entre dois grupos em um gráfico, qual abordagem é mais responsável para evitar conclusões apressadas?

Você acertou! Parabéns, agora siga para a próxima página

Você errou! Tente novamente.

Uma leitura responsável exige contexto (n e base), verificação numérica do que o gráfico sugere, atenção a missing/outliers e redação descritiva. Assim, evita-se generalizar além do dataset ou sugerir causalidade onde há apenas associação.

Próximo capitúlo

Estatística Descritiva do Zero: projeto final de descrição completa de um conjunto de dados

Arrow Right Icon
Capa do Ebook gratuito Estatística Descritiva do Zero: Como Entender e Resumir Dados
92%

Estatística Descritiva do Zero: Como Entender e Resumir Dados

Novo curso

13 páginas

Baixe o app para ganhar Certificação grátis e ouvir os cursos em background, mesmo com a tela desligada.