O que é um boxplot e por que ele é útil
O boxplot (diagrama de caixa) é um gráfico que resume uma distribuição usando medidas de posição e dispersão baseadas em quartis. Ele é especialmente útil para: (1) visualizar rapidamente a mediana e a dispersão central, (2) sugerir assimetria (cauda maior para um lado), e (3) destacar valores atípicos (outliers) segundo um critério padronizado.
Um boxplot é composto por: caixa (do 1º ao 3º quartil), linha da mediana, bigodes (extensões até limites definidos) e, quando existirem, pontos marcando possíveis outliers.
Componentes do boxplot (com interpretação)
Mediana (Q2)
A linha dentro da caixa marca a mediana (Q2). Ela divide os dados em duas metades: 50% abaixo e 50% acima. Em boxplots comparativos (por grupos), a mediana ajuda a comparar o “nível típico” entre grupos, sem depender de média.
Quartis (Q1 e Q3) e a caixa
A base da caixa é o 1º quartil (Q1) e o topo é o 3º quartil (Q3). Isso significa: 50% dos dados estão dentro da caixa (entre Q1 e Q3). A caixa mostra onde está concentrada a parte central da distribuição.
Amplitude interquartil (IQR)
A amplitude interquartil é definida por IQR = Q3 − Q1. Ela mede a dispersão dos 50% centrais e é mais robusta a valores extremos do que medidas baseadas em toda a amostra.
- Ouça o áudio com a tela desligada
- Ganhe Certificado após a conclusão
- + de 5000 cursos para você explorar!
Baixar o aplicativo
Bigodes
Os bigodes não vão necessariamente até o mínimo e o máximo. Em muitos softwares e livros, eles se estendem até o último valor que ainda não é considerado outlier pelo critério 1,5×IQR (detalhado a seguir). Os pontos além dos bigodes são marcados como possíveis outliers.
Como construir um boxplot (passo a passo prático)
Suponha uma variável quantitativa (ex.: tempo de atendimento em minutos) com os valores já organizados em ordem crescente.
Passo 1 — Ordene os dados
Liste os valores do menor para o maior. Isso é necessário para localizar quartis e mediana.
Passo 2 — Encontre Q1, mediana (Q2) e Q3
Use o método de quartis adotado no seu contexto (há variações entre softwares). O importante é ser consistente ao comparar grupos. Você precisa de três números: Q1, Q2 e Q3.
Passo 3 — Calcule o IQR
IQR = Q3 − Q1
Passo 4 — Calcule os limites para outliers (regra 1,5×IQR)
Defina:
- Limite inferior:
LI = Q1 − 1,5 × IQR - Limite superior:
LS = Q3 + 1,5 × IQR
Valores abaixo de LI ou acima de LS são marcados como possíveis outliers.
Passo 5 — Defina os bigodes
O bigode inferior vai até o menor valor que seja ≥ LI. O bigode superior vai até o maior valor que seja ≤ LS. Valores fora disso aparecem como pontos.
Passo 6 — Desenhe o boxplot
- Desenhe uma caixa de Q1 até Q3.
- Trace uma linha na mediana (Q2).
- Desenhe os bigodes até os extremos “não-outliers”.
- Marque os valores fora dos limites como pontos (outliers).
Exemplo numérico completo (com regra 1,5×IQR)
Dados (já ordenados): 10, 11, 12, 12, 13, 14, 15, 16, 18, 30
Vamos usar quartis de forma simples para ilustração:
- Mediana (Q2): média entre 5º e 6º valores (13 e 14) →
Q2 = 13,5 - Q1: mediana da metade inferior (10, 11, 12, 12, 13) →
Q1 = 12 - Q3: mediana da metade superior (14, 15, 16, 18, 30) →
Q3 = 16
Agora:
IQR = Q3 − Q1 = 16 − 12 = 4LI = 12 − 1,5×4 = 12 − 6 = 6LS = 16 + 1,5×4 = 16 + 6 = 22
Interpretação:
- Qualquer valor
< 6seria outlier inferior (não há). - Qualquer valor
> 22é outlier superior →30é um possível outlier. - Bigode inferior vai até 10 (menor valor ≥ 6).
- Bigode superior vai até 18 (maior valor ≤ 22).
- O valor 30 aparece como ponto separado.
Como interpretar assimetria no boxplot
O boxplot sugere assimetria observando a posição da mediana dentro da caixa e o comprimento relativo dos bigodes:
- Assimetria à direita (positiva): bigode superior mais longo e/ou mediana mais próxima de Q1. Indica cauda mais longa em valores altos.
- Assimetria à esquerda (negativa): bigode inferior mais longo e/ou mediana mais próxima de Q3. Indica cauda mais longa em valores baixos.
- Mais simétrico: mediana aproximadamente central na caixa e bigodes com comprimentos parecidos.
Cuidados: (1) amostras pequenas podem produzir boxplots “irregulares” por acaso; (2) a presença de outliers pode alongar a percepção de cauda; (3) assimetria no boxplot é um indício, não um diagnóstico definitivo.
Critério 1,5×IQR para outliers: o que ele faz (e o que não faz)
A regra 1,5×IQR é um critério prático para marcar observações “incomuns” em relação ao miolo da distribuição. Ela é popular porque é simples e relativamente robusta. Porém:
- Ela não prova que um ponto é erro.
- Ela pode marcar muitos outliers em distribuições naturalmente assimétricas (por exemplo, tempos, renda, contagens).
- Ela depende do método de cálculo de quartis (diferenças pequenas podem mudar quem cai fora).
Como investigar um outlier: erro, caso raro legítimo ou subgrupo
Quando um ponto aparece como outlier, trate-o como um alarme para investigação. Um roteiro prático:
1) Verificação de erro de registro/medição
- Unidade: está em minutos ou horas? Em reais ou milhares de reais?
- Casa decimal: 3,0 virou 30? 1,2 virou 12?
- Digitação: troca de dígitos (ex.: 81 em vez de 18).
- Valores impossíveis: idade negativa, porcentagem > 100, etc.
- Duplicidade: registro repetido indevidamente.
Se for erro confirmado, corrija (se houver fonte confiável) ou remova conforme regra de qualidade de dados do projeto, registrando a decisão.
2) Caso raro, mas legítimo
Se o valor é plausível e consistente com o processo real (ex.: um atendimento muito demorado por complicação), ele pode ser um evento raro. Nesse caso:
- Não remova automaticamente.
- Descreva o impacto: compare medidas robustas (mediana, IQR) com medidas sensíveis (média, desvio-padrão) para entender quanto ele “puxa” o resumo.
- Considere apresentar resultados com e sem o ponto, deixando claro o motivo.
3) Indício de subgrupo diferente (mistura de populações)
Às vezes o outlier não é “um ponto estranho”, mas um sinal de que há dois processos gerando dados. Exemplos: um hospital com dois tipos de atendimento (rotina vs. emergência), uma loja com vendas normais vs. vendas corporativas.
Como investigar:
- Quebre por categorias relevantes (turno, unidade, tipo de cliente, região, equipamento, operador).
- Faça boxplots por grupo e veja se o “outlier” vira comum dentro de um subgrupo.
- Procure variáveis explicativas associadas ao extremo (ex.: casos com comorbidade, pedidos com frete especial).
Se houver subgrupos, pode ser mais informativo descrever cada grupo separadamente do que “forçar” um único resumo global.
Comparando boxplots entre grupos (boas práticas)
O que comparar
- Mediana: diferenças no centro/típico entre grupos.
- IQR (altura da caixa): dispersão dos 50% centrais; caixas maiores sugerem maior variabilidade central.
- Bigodes: extensão dos valores não-outliers; bigodes longos sugerem caudas mais longas.
- Assimetria: mediana deslocada e bigodes desbalanceados.
- Outliers: quantidade e distância; pode indicar heterogeneidade, erros ou eventos raros.
Cuidados para não tirar conclusões precipitadas
- Tamanho amostral: um grupo com poucos dados pode aparentar menos outliers e ter quartis instáveis.
- Escala do eixo: compare boxplots com o mesmo eixo; escalas diferentes enganam a percepção.
- Distribuições diferentes: dois grupos podem ter a mesma mediana, mas dispersões muito distintas (ou vice-versa).
- Outliers não são “ruído automático”: podem ser parte importante do fenômeno.
- Boxplot não mostra tudo: ele resume; se necessário, complemente com histograma/densidade ou pontos (stripchart) para ver multimodalidade e concentração.
Checklist rápido para leitura de um boxplot
| Elemento | O que observar | O que pode indicar |
|---|---|---|
| Mediana | Altura da linha | Nível típico |
| Caixa (Q1–Q3) | Tamanho (IQR) | Dispersão central |
| Mediana dentro da caixa | Mais perto de Q1 ou Q3 | Assimetria |
| Bigodes | Comprimentos e equilíbrio | Caudas e assimetria |
| Pontos fora | Quantidade e distância | Possíveis outliers (investigar) |
Mini-roteiro para aplicar em dados reais
1) Faça o boxplot da variável (geral) e observe: mediana, IQR, bigodes, pontos fora. 2) Calcule Q1, Q3 e IQR; aplique LI/LS = Q1−1,5×IQR e Q3+1,5×IQR. 3) Liste os registros fora dos limites e verifique: unidade, digitação, plausibilidade. 4) Se forem plausíveis, procure explicações: estratifique por grupos e refaça boxplots. 5) Ao comparar grupos, use o mesmo eixo e considere o tamanho amostral antes de interpretar diferenças.