O que significa “comparar grupos” na estatística descritiva
Comparar grupos é descrever a mesma variável numérica (por exemplo, valor_gasto, tempo_de_entrega, nota) separando os dados por uma categoria (por exemplo, região, faixa_etária, canal). O objetivo é responder perguntas como: “Qual grupo tende a ter valores maiores?”, “Qual grupo é mais variável?”, “Há grupos com valores extremos?” usando resumos numéricos claros e consistentes.
Uma comparação descritiva bem feita costuma incluir, para cada grupo: n (tamanho do grupo), uma medida de centro (média ou mediana), uma medida de dispersão (desvio-padrão ou IQR), e limites (mínimo e máximo). Isso permite enxergar diferenças sem depender apenas de um número.
Tabelas-resumo por grupo: o que não pode faltar
Colunas essenciais
- Grupo: a categoria que segmenta (ex.: Região).
- n: quantidade de observações válidas no grupo (deixe claro se houve dados ausentes).
- Centro:
médiaoumediana. - Dispersão:
desvio-padrão(com média) ouIQR(com mediana). - Mínimo e Máximo: ajudam a detectar amplitude e possíveis extremos.
Boas práticas de formatação
- Use a mesma unidade e o mesmo número de casas decimais em todos os grupos.
- Ordene os grupos de forma útil (por exemplo, por mediana/média, ou por ordem natural: faixas etárias).
- Se houver grupos muito pequenos, destaque isso (por exemplo,
n<10) porque estimativas ficam instáveis. - Se a variável for monetária, inclua símbolo e padronize (ex.: R$).
Como escolher medidas robustas (média vs. mediana; DP vs. IQR)
Quando a média e o desvio-padrão funcionam bem
Use média e desvio-padrão quando a distribuição dentro de cada grupo for aproximadamente simétrica e sem valores extremos dominantes. Nesses casos, a média representa bem o “valor típico” e o desvio-padrão resume a variabilidade.
Quando preferir mediana e IQR (robustas)
Use mediana e IQR quando houver assimetria (cauda longa) ou valores atípicos relevantes. A mediana é menos puxada por extremos, e o IQR descreve a dispersão do “miolo” dos dados (50% central).
Regra prática para decidir
- Se o mínimo/máximo estiverem muito distantes do restante (ou se você já observou cauda longa), prefira
mediana (IQR). - Se a média estiver muito diferente da mediana, isso é um sinal de assimetria; considere reportar
mediana (IQR)ou reportar ambos (com cuidado para não confundir). - Se você precisa comparar “nível típico” e “variabilidade típica” em cenários com outliers (ex.: gastos, renda, tempo),
mediana (IQR)costuma ser mais estável.
Passo a passo: construindo uma tabela-resumo por categoria
Passo 1 — Defina a variável numérica e a categoria
Exemplo: comparar valor_gasto por canal (Loja, Site, App).
- Ouça o áudio com a tela desligada
- Ganhe Certificado após a conclusão
- + de 5000 cursos para você explorar!
Baixar o aplicativo
Passo 2 — Garanta comparabilidade entre grupos
- Mesma definição de variável para todos (ex.: valor em R$, sem misturar moedas).
- Mesmo período de coleta (ex.: último mês) para evitar comparar contextos diferentes.
- Trate ausentes de forma consistente: conte
napenas com valores válidos e, se possível, registre quantos foram excluídos.
Passo 3 — Calcule os resumos por grupo
Para cada grupo, calcule: n, centro, dispersão, mínimo e máximo. Se a distribuição for assimétrica, use mediana e IQR.
Passo 4 — Monte a tabela com rótulos claros
Inclua unidades e deixe explícito o par de medidas usado. Exemplos de cabeçalho: Mediana (IQR) ou Média (DP).
Passo 5 — Escreva 2–3 frases de leitura (sem causalidade)
Relate: (1) qual grupo tem maior centro, (2) qual tem maior variabilidade, (3) se há extremos. Evite frases do tipo “o canal X causa maior gasto”. Prefira “no conjunto observado, o canal X apresenta maior mediana”.
Exemplo 1: segmentação por região (mediana e IQR)
Suponha que valor_gasto (R$) seja assimétrico (alguns clientes gastam muito). Uma tabela robusta por região:
| Região | n | Mediana (IQR) — R$ | Mín | Máx |
|---|---|---|---|---|
| Norte | 120 | 180 (110–260) | 20 | 2.400 |
| Nordeste | 210 | 200 (130–310) | 15 | 3.100 |
| Sudeste | 540 | 260 (170–420) | 10 | 9.800 |
| Sul | 190 | 240 (160–380) | 25 | 4.600 |
| Centro-Oeste | 160 | 230 (150–350) | 18 | 5.200 |
Como interpretar (exemplo de texto descritivo)
- O Sudeste apresenta a maior mediana de gasto (R$ 260), seguido do Sul (R$ 240).
- A variabilidade típica (IQR) é maior no Sudeste (170–420), sugerindo maior heterogeneidade de gastos no miolo da distribuição.
- O máximo no Sudeste (R$ 9.800) indica presença de valores extremos; por isso, mediana e IQR são escolhas mais estáveis do que média e desvio-padrão.
Exemplo 2: segmentação por faixa etária (média e desvio-padrão)
Agora suponha que nota_de_satisfação (0 a 10) seja relativamente simétrica dentro de cada faixa. Uma tabela com média e DP:
| Faixa etária | n | Média (DP) | Mín | Máx |
|---|---|---|---|---|
| 18–24 | 95 | 7,6 (1,4) | 3,0 | 10,0 |
| 25–34 | 180 | 7,9 (1,2) | 3,5 | 10,0 |
| 35–44 | 160 | 8,1 (1,1) | 4,0 | 10,0 |
| 45–54 | 120 | 7,8 (1,3) | 3,0 | 10,0 |
| 55+ | 70 | 7,4 (1,5) | 2,5 | 10,0 |
Como interpretar
- A maior média aparece em 35–44 (8,1), com dispersão relativamente baixa (DP 1,1).
- O grupo 55+ tem média menor (7,4) e maior dispersão (DP 1,5), sugerindo respostas mais variadas.
- Como a escala é limitada (0–10), mínimo e máximo ajudam a ver se há concentração perto dos limites.
Exemplo 3: segmentação por canal (comparando centro e variabilidade)
Considere tempo_de_entrega (dias), geralmente assimétrico (alguns atrasos). Tabela robusta:
| Canal | n | Mediana (IQR) — dias | Mín | Máx |
|---|---|---|---|---|
| Loja | 220 | 1 (1–2) | 0 | 7 |
| Site | 480 | 3 (2–5) | 1 | 21 |
| App | 310 | 2 (1–4) | 0 | 18 |
Leitura orientada a decisão (sem extrapolar)
- O Site tem maior tempo típico (mediana 3 dias) e maior variabilidade típica (IQR 2–5) do que Loja e App.
- Os máximos (21 no Site, 18 no App) sugerem atrasos pontuais; a mediana evita que esses casos dominem o resumo.
Como relatar diferenças com clareza (e sem inferir causalidade)
Frases-modelo úteis
- Centro: “No período analisado, o grupo A apresenta mediana de X, enquanto o grupo B apresenta mediana de Y.”
- Diferença absoluta: “A mediana no grupo A é 1,0 dia maior do que no grupo B.”
- Dispersão: “O IQR no grupo A é mais amplo, indicando maior variabilidade típica.”
- Extremos: “O máximo é substancialmente maior no grupo A, sugerindo ocorrências raras de valores muito altos.”
Cuidados de linguagem
- Evite: “O canal Site faz a entrega demorar mais.”
- Prefira: “As entregas do Site apresentam maior mediana de tempo no conjunto observado.”
- Se houver diferenças de composição (ex.: regiões com mix de produtos diferente), mencione como possível explicação sem afirmar causa.
Armadilhas comuns em tabelas comparativas (e como evitar)
1) Comparar médias com distribuições muito assimétricas
Se um grupo tem poucos valores muito altos, a média pode subir bastante e parecer que o grupo “é maior”, mesmo que a maioria não seja. Solução: use mediana (IQR) e mostre mín–máx.
2) Ignorar o tamanho do grupo (n)
Um grupo com n pequeno pode ter mediana ou média instável. Solução: sempre inclua n e sinalize grupos pequenos.
3) Misturar medidas incompatíveis
Exemplo: reportar média com IQR ou mediana com desvio-padrão sem motivo. Solução: use pares coerentes (média+DP ou mediana+IQR).
4) Comparar grupos com definições diferentes
Exemplo: “canal App” inclui apenas entregas expressas, enquanto “Site” inclui entregas normais. Solução: garanta critérios iguais ou descreva claramente a diferença.
5) Ler mínimo e máximo como “padrão”
Mínimo e máximo são extremos; não representam o típico. Solução: use-os como alerta de amplitude/outliers, não como resumo principal.
Exercícios de interpretação (com armadilhas)
Exercício 1 — Média enganosa por outliers
Uma empresa resume valor_gasto por canal:
| Canal | n | Média (DP) — R$ | Mín | Máx |
|---|---|---|---|---|
| Site | 50 | 420 (900) | 30 | 6.000 |
| Loja | 500 | 260 (180) | 20 | 1.200 |
- Pergunta: É correto afirmar que “Site tem gasto típico maior que Loja”?
- Armadilha: DP muito alto e máximo extremo no Site sugerem assimetria forte; a média pode estar inflada por poucos casos.
- Tarefa: Diga qual medida você pediria para comparar “típico” e por quê (responda em uma frase).
Exercício 2 — Esquecendo o n
Resumo de tempo_de_entrega por região:
| Região | n | Mediana (IQR) — dias |
|---|---|---|
| A | 12 | 2 (1–3) |
| B | 620 | 3 (2–4) |
- Pergunta: Qual região parece “melhor” em tempo típico? O quão confiante você fica nessa comparação?
- Armadilha: Região A tem n muito pequeno; a mediana pode mudar muito com poucos pedidos.
- Tarefa: Escreva uma interpretação cautelosa em 2 linhas, mencionando o papel do n.
Exercício 3 — Linguagem causal indevida
Uma tabela mostra que a faixa 35–44 tem maior média de satisfação do que 18–24.
- Pergunta: Reescreva a frase “Ter 35–44 anos aumenta a satisfação” de forma descritiva e correta.
- Armadilha: Confundir associação descritiva com causa.
Exercício 4 — Comparação injusta por composição
O canal App tem mediana de tempo menor que o Site. Porém, o App vende majoritariamente produtos leves e o Site vende itens grandes.
- Pergunta: Qual é a armadilha na comparação direta por canal?
- Tarefa: Sugira uma segmentação adicional (uma nova categoria) para tornar a comparação mais justa.
Checklist rápido para sua próxima tabela-resumo por grupo
- Defini a variável numérica e a categoria de segmentação com critérios consistentes.
- Incluí
npor grupo e tratei ausentes de forma explícita. - Escolhi
média+DPoumediana+IQRde acordo com a forma da distribuição. - Incluí
mínemáxpara contexto e alerta de extremos. - Escrevi a interpretação com linguagem descritiva, sem causalidade.