Estatística Descritiva do Zero: comparações entre grupos e tabelas-resumo bem construídas

Capítulo 11

Tempo estimado de leitura: 8 minutos

+ Exercício

O que significa “comparar grupos” na estatística descritiva

Comparar grupos é descrever a mesma variável numérica (por exemplo, valor_gasto, tempo_de_entrega, nota) separando os dados por uma categoria (por exemplo, região, faixa_etária, canal). O objetivo é responder perguntas como: “Qual grupo tende a ter valores maiores?”, “Qual grupo é mais variável?”, “Há grupos com valores extremos?” usando resumos numéricos claros e consistentes.

Uma comparação descritiva bem feita costuma incluir, para cada grupo: n (tamanho do grupo), uma medida de centro (média ou mediana), uma medida de dispersão (desvio-padrão ou IQR), e limites (mínimo e máximo). Isso permite enxergar diferenças sem depender apenas de um número.

Tabelas-resumo por grupo: o que não pode faltar

Colunas essenciais

  • Grupo: a categoria que segmenta (ex.: Região).
  • n: quantidade de observações válidas no grupo (deixe claro se houve dados ausentes).
  • Centro: média ou mediana.
  • Dispersão: desvio-padrão (com média) ou IQR (com mediana).
  • Mínimo e Máximo: ajudam a detectar amplitude e possíveis extremos.

Boas práticas de formatação

  • Use a mesma unidade e o mesmo número de casas decimais em todos os grupos.
  • Ordene os grupos de forma útil (por exemplo, por mediana/média, ou por ordem natural: faixas etárias).
  • Se houver grupos muito pequenos, destaque isso (por exemplo, n<10) porque estimativas ficam instáveis.
  • Se a variável for monetária, inclua símbolo e padronize (ex.: R$).

Como escolher medidas robustas (média vs. mediana; DP vs. IQR)

Quando a média e o desvio-padrão funcionam bem

Use média e desvio-padrão quando a distribuição dentro de cada grupo for aproximadamente simétrica e sem valores extremos dominantes. Nesses casos, a média representa bem o “valor típico” e o desvio-padrão resume a variabilidade.

Quando preferir mediana e IQR (robustas)

Use mediana e IQR quando houver assimetria (cauda longa) ou valores atípicos relevantes. A mediana é menos puxada por extremos, e o IQR descreve a dispersão do “miolo” dos dados (50% central).

Regra prática para decidir

  • Se o mínimo/máximo estiverem muito distantes do restante (ou se você já observou cauda longa), prefira mediana (IQR).
  • Se a média estiver muito diferente da mediana, isso é um sinal de assimetria; considere reportar mediana (IQR) ou reportar ambos (com cuidado para não confundir).
  • Se você precisa comparar “nível típico” e “variabilidade típica” em cenários com outliers (ex.: gastos, renda, tempo), mediana (IQR) costuma ser mais estável.

Passo a passo: construindo uma tabela-resumo por categoria

Passo 1 — Defina a variável numérica e a categoria

Exemplo: comparar valor_gasto por canal (Loja, Site, App).

Continue em nosso aplicativo e ...
  • Ouça o áudio com a tela desligada
  • Ganhe Certificado após a conclusão
  • + de 5000 cursos para você explorar!
ou continue lendo abaixo...
Download App

Baixar o aplicativo

Passo 2 — Garanta comparabilidade entre grupos

  • Mesma definição de variável para todos (ex.: valor em R$, sem misturar moedas).
  • Mesmo período de coleta (ex.: último mês) para evitar comparar contextos diferentes.
  • Trate ausentes de forma consistente: conte n apenas com valores válidos e, se possível, registre quantos foram excluídos.

Passo 3 — Calcule os resumos por grupo

Para cada grupo, calcule: n, centro, dispersão, mínimo e máximo. Se a distribuição for assimétrica, use mediana e IQR.

Passo 4 — Monte a tabela com rótulos claros

Inclua unidades e deixe explícito o par de medidas usado. Exemplos de cabeçalho: Mediana (IQR) ou Média (DP).

Passo 5 — Escreva 2–3 frases de leitura (sem causalidade)

Relate: (1) qual grupo tem maior centro, (2) qual tem maior variabilidade, (3) se há extremos. Evite frases do tipo “o canal X causa maior gasto”. Prefira “no conjunto observado, o canal X apresenta maior mediana”.

Exemplo 1: segmentação por região (mediana e IQR)

Suponha que valor_gasto (R$) seja assimétrico (alguns clientes gastam muito). Uma tabela robusta por região:

RegiãonMediana (IQR) — R$MínMáx
Norte120180 (110–260)202.400
Nordeste210200 (130–310)153.100
Sudeste540260 (170–420)109.800
Sul190240 (160–380)254.600
Centro-Oeste160230 (150–350)185.200

Como interpretar (exemplo de texto descritivo)

  • O Sudeste apresenta a maior mediana de gasto (R$ 260), seguido do Sul (R$ 240).
  • A variabilidade típica (IQR) é maior no Sudeste (170–420), sugerindo maior heterogeneidade de gastos no miolo da distribuição.
  • O máximo no Sudeste (R$ 9.800) indica presença de valores extremos; por isso, mediana e IQR são escolhas mais estáveis do que média e desvio-padrão.

Exemplo 2: segmentação por faixa etária (média e desvio-padrão)

Agora suponha que nota_de_satisfação (0 a 10) seja relativamente simétrica dentro de cada faixa. Uma tabela com média e DP:

Faixa etárianMédia (DP)MínMáx
18–24957,6 (1,4)3,010,0
25–341807,9 (1,2)3,510,0
35–441608,1 (1,1)4,010,0
45–541207,8 (1,3)3,010,0
55+707,4 (1,5)2,510,0

Como interpretar

  • A maior média aparece em 35–44 (8,1), com dispersão relativamente baixa (DP 1,1).
  • O grupo 55+ tem média menor (7,4) e maior dispersão (DP 1,5), sugerindo respostas mais variadas.
  • Como a escala é limitada (0–10), mínimo e máximo ajudam a ver se há concentração perto dos limites.

Exemplo 3: segmentação por canal (comparando centro e variabilidade)

Considere tempo_de_entrega (dias), geralmente assimétrico (alguns atrasos). Tabela robusta:

CanalnMediana (IQR) — diasMínMáx
Loja2201 (1–2)07
Site4803 (2–5)121
App3102 (1–4)018

Leitura orientada a decisão (sem extrapolar)

  • O Site tem maior tempo típico (mediana 3 dias) e maior variabilidade típica (IQR 2–5) do que Loja e App.
  • Os máximos (21 no Site, 18 no App) sugerem atrasos pontuais; a mediana evita que esses casos dominem o resumo.

Como relatar diferenças com clareza (e sem inferir causalidade)

Frases-modelo úteis

  • Centro: “No período analisado, o grupo A apresenta mediana de X, enquanto o grupo B apresenta mediana de Y.”
  • Diferença absoluta: “A mediana no grupo A é 1,0 dia maior do que no grupo B.”
  • Dispersão: “O IQR no grupo A é mais amplo, indicando maior variabilidade típica.”
  • Extremos: “O máximo é substancialmente maior no grupo A, sugerindo ocorrências raras de valores muito altos.”

Cuidados de linguagem

  • Evite: “O canal Site faz a entrega demorar mais.”
  • Prefira: “As entregas do Site apresentam maior mediana de tempo no conjunto observado.”
  • Se houver diferenças de composição (ex.: regiões com mix de produtos diferente), mencione como possível explicação sem afirmar causa.

Armadilhas comuns em tabelas comparativas (e como evitar)

1) Comparar médias com distribuições muito assimétricas

Se um grupo tem poucos valores muito altos, a média pode subir bastante e parecer que o grupo “é maior”, mesmo que a maioria não seja. Solução: use mediana (IQR) e mostre mín–máx.

2) Ignorar o tamanho do grupo (n)

Um grupo com n pequeno pode ter mediana ou média instável. Solução: sempre inclua n e sinalize grupos pequenos.

3) Misturar medidas incompatíveis

Exemplo: reportar média com IQR ou mediana com desvio-padrão sem motivo. Solução: use pares coerentes (média+DP ou mediana+IQR).

4) Comparar grupos com definições diferentes

Exemplo: “canal App” inclui apenas entregas expressas, enquanto “Site” inclui entregas normais. Solução: garanta critérios iguais ou descreva claramente a diferença.

5) Ler mínimo e máximo como “padrão”

Mínimo e máximo são extremos; não representam o típico. Solução: use-os como alerta de amplitude/outliers, não como resumo principal.

Exercícios de interpretação (com armadilhas)

Exercício 1 — Média enganosa por outliers

Uma empresa resume valor_gasto por canal:

CanalnMédia (DP) — R$MínMáx
Site50420 (900)306.000
Loja500260 (180)201.200
  • Pergunta: É correto afirmar que “Site tem gasto típico maior que Loja”?
  • Armadilha: DP muito alto e máximo extremo no Site sugerem assimetria forte; a média pode estar inflada por poucos casos.
  • Tarefa: Diga qual medida você pediria para comparar “típico” e por quê (responda em uma frase).

Exercício 2 — Esquecendo o n

Resumo de tempo_de_entrega por região:

RegiãonMediana (IQR) — dias
A122 (1–3)
B6203 (2–4)
  • Pergunta: Qual região parece “melhor” em tempo típico? O quão confiante você fica nessa comparação?
  • Armadilha: Região A tem n muito pequeno; a mediana pode mudar muito com poucos pedidos.
  • Tarefa: Escreva uma interpretação cautelosa em 2 linhas, mencionando o papel do n.

Exercício 3 — Linguagem causal indevida

Uma tabela mostra que a faixa 35–44 tem maior média de satisfação do que 18–24.

  • Pergunta: Reescreva a frase “Ter 35–44 anos aumenta a satisfação” de forma descritiva e correta.
  • Armadilha: Confundir associação descritiva com causa.

Exercício 4 — Comparação injusta por composição

O canal App tem mediana de tempo menor que o Site. Porém, o App vende majoritariamente produtos leves e o Site vende itens grandes.

  • Pergunta: Qual é a armadilha na comparação direta por canal?
  • Tarefa: Sugira uma segmentação adicional (uma nova categoria) para tornar a comparação mais justa.

Checklist rápido para sua próxima tabela-resumo por grupo

  • Defini a variável numérica e a categoria de segmentação com critérios consistentes.
  • Incluí n por grupo e tratei ausentes de forma explícita.
  • Escolhi média+DP ou mediana+IQR de acordo com a forma da distribuição.
  • Incluí mín e máx para contexto e alerta de extremos.
  • Escrevi a interpretação com linguagem descritiva, sem causalidade.

Agora responda o exercício sobre o conteúdo:

Ao comparar uma variável numérica entre grupos em uma tabela-resumo, qual combinação de medidas é mais adequada quando a distribuição dentro dos grupos é assimétrica ou possui valores extremos relevantes?

Você acertou! Parabéns, agora siga para a próxima página

Você errou! Tente novamente.

Em distribuições assimétricas ou com outliers, a mediana é menos influenciada por extremos e o IQR resume a variabilidade dos 50% centrais, oferecendo comparação mais estável entre grupos do que média e DP.

Próximo capitúlo

Estatística Descritiva do Zero: boas práticas de interpretação e prevenção de conclusões apressadas

Arrow Right Icon
Capa do Ebook gratuito Estatística Descritiva do Zero: Como Entender e Resumir Dados
85%

Estatística Descritiva do Zero: Como Entender e Resumir Dados

Novo curso

13 páginas

Baixe o app para ganhar Certificação grátis e ouvir os cursos em background, mesmo com a tela desligada.