Estatística Descritiva do Zero: boxplot, assimetria e identificação de valores atípicos

Capítulo 10

Tempo estimado de leitura: 7 minutos

+ Exercício

O que é um boxplot e por que ele é útil

O boxplot (diagrama de caixa) é um gráfico que resume uma distribuição usando medidas de posição e dispersão baseadas em quartis. Ele é especialmente útil para: (1) visualizar rapidamente a mediana e a dispersão central, (2) sugerir assimetria (cauda maior para um lado), e (3) destacar valores atípicos (outliers) segundo um critério padronizado.

Um boxplot é composto por: caixa (do 1º ao 3º quartil), linha da mediana, bigodes (extensões até limites definidos) e, quando existirem, pontos marcando possíveis outliers.

Componentes do boxplot (com interpretação)

Mediana (Q2)

A linha dentro da caixa marca a mediana (Q2). Ela divide os dados em duas metades: 50% abaixo e 50% acima. Em boxplots comparativos (por grupos), a mediana ajuda a comparar o “nível típico” entre grupos, sem depender de média.

Quartis (Q1 e Q3) e a caixa

A base da caixa é o 1º quartil (Q1) e o topo é o 3º quartil (Q3). Isso significa: 50% dos dados estão dentro da caixa (entre Q1 e Q3). A caixa mostra onde está concentrada a parte central da distribuição.

Amplitude interquartil (IQR)

A amplitude interquartil é definida por IQR = Q3 − Q1. Ela mede a dispersão dos 50% centrais e é mais robusta a valores extremos do que medidas baseadas em toda a amostra.

Continue em nosso aplicativo e ...
  • Ouça o áudio com a tela desligada
  • Ganhe Certificado após a conclusão
  • + de 5000 cursos para você explorar!
ou continue lendo abaixo...
Download App

Baixar o aplicativo

Bigodes

Os bigodes não vão necessariamente até o mínimo e o máximo. Em muitos softwares e livros, eles se estendem até o último valor que ainda não é considerado outlier pelo critério 1,5×IQR (detalhado a seguir). Os pontos além dos bigodes são marcados como possíveis outliers.

Como construir um boxplot (passo a passo prático)

Suponha uma variável quantitativa (ex.: tempo de atendimento em minutos) com os valores já organizados em ordem crescente.

Passo 1 — Ordene os dados

Liste os valores do menor para o maior. Isso é necessário para localizar quartis e mediana.

Passo 2 — Encontre Q1, mediana (Q2) e Q3

Use o método de quartis adotado no seu contexto (há variações entre softwares). O importante é ser consistente ao comparar grupos. Você precisa de três números: Q1, Q2 e Q3.

Passo 3 — Calcule o IQR

IQR = Q3 − Q1

Passo 4 — Calcule os limites para outliers (regra 1,5×IQR)

Defina:

  • Limite inferior: LI = Q1 − 1,5 × IQR
  • Limite superior: LS = Q3 + 1,5 × IQR

Valores abaixo de LI ou acima de LS são marcados como possíveis outliers.

Passo 5 — Defina os bigodes

O bigode inferior vai até o menor valor que seja ≥ LI. O bigode superior vai até o maior valor que seja ≤ LS. Valores fora disso aparecem como pontos.

Passo 6 — Desenhe o boxplot

  • Desenhe uma caixa de Q1 até Q3.
  • Trace uma linha na mediana (Q2).
  • Desenhe os bigodes até os extremos “não-outliers”.
  • Marque os valores fora dos limites como pontos (outliers).

Exemplo numérico completo (com regra 1,5×IQR)

Dados (já ordenados): 10, 11, 12, 12, 13, 14, 15, 16, 18, 30

Vamos usar quartis de forma simples para ilustração:

  • Mediana (Q2): média entre 5º e 6º valores (13 e 14) → Q2 = 13,5
  • Q1: mediana da metade inferior (10, 11, 12, 12, 13) → Q1 = 12
  • Q3: mediana da metade superior (14, 15, 16, 18, 30) → Q3 = 16

Agora:

  • IQR = Q3 − Q1 = 16 − 12 = 4
  • LI = 12 − 1,5×4 = 12 − 6 = 6
  • LS = 16 + 1,5×4 = 16 + 6 = 22

Interpretação:

  • Qualquer valor < 6 seria outlier inferior (não há).
  • Qualquer valor > 22 é outlier superior → 30 é um possível outlier.
  • Bigode inferior vai até 10 (menor valor ≥ 6).
  • Bigode superior vai até 18 (maior valor ≤ 22).
  • O valor 30 aparece como ponto separado.

Como interpretar assimetria no boxplot

O boxplot sugere assimetria observando a posição da mediana dentro da caixa e o comprimento relativo dos bigodes:

  • Assimetria à direita (positiva): bigode superior mais longo e/ou mediana mais próxima de Q1. Indica cauda mais longa em valores altos.
  • Assimetria à esquerda (negativa): bigode inferior mais longo e/ou mediana mais próxima de Q3. Indica cauda mais longa em valores baixos.
  • Mais simétrico: mediana aproximadamente central na caixa e bigodes com comprimentos parecidos.

Cuidados: (1) amostras pequenas podem produzir boxplots “irregulares” por acaso; (2) a presença de outliers pode alongar a percepção de cauda; (3) assimetria no boxplot é um indício, não um diagnóstico definitivo.

Critério 1,5×IQR para outliers: o que ele faz (e o que não faz)

A regra 1,5×IQR é um critério prático para marcar observações “incomuns” em relação ao miolo da distribuição. Ela é popular porque é simples e relativamente robusta. Porém:

  • Ela não prova que um ponto é erro.
  • Ela pode marcar muitos outliers em distribuições naturalmente assimétricas (por exemplo, tempos, renda, contagens).
  • Ela depende do método de cálculo de quartis (diferenças pequenas podem mudar quem cai fora).

Como investigar um outlier: erro, caso raro legítimo ou subgrupo

Quando um ponto aparece como outlier, trate-o como um alarme para investigação. Um roteiro prático:

1) Verificação de erro de registro/medição

  • Unidade: está em minutos ou horas? Em reais ou milhares de reais?
  • Casa decimal: 3,0 virou 30? 1,2 virou 12?
  • Digitação: troca de dígitos (ex.: 81 em vez de 18).
  • Valores impossíveis: idade negativa, porcentagem > 100, etc.
  • Duplicidade: registro repetido indevidamente.

Se for erro confirmado, corrija (se houver fonte confiável) ou remova conforme regra de qualidade de dados do projeto, registrando a decisão.

2) Caso raro, mas legítimo

Se o valor é plausível e consistente com o processo real (ex.: um atendimento muito demorado por complicação), ele pode ser um evento raro. Nesse caso:

  • Não remova automaticamente.
  • Descreva o impacto: compare medidas robustas (mediana, IQR) com medidas sensíveis (média, desvio-padrão) para entender quanto ele “puxa” o resumo.
  • Considere apresentar resultados com e sem o ponto, deixando claro o motivo.

3) Indício de subgrupo diferente (mistura de populações)

Às vezes o outlier não é “um ponto estranho”, mas um sinal de que há dois processos gerando dados. Exemplos: um hospital com dois tipos de atendimento (rotina vs. emergência), uma loja com vendas normais vs. vendas corporativas.

Como investigar:

  • Quebre por categorias relevantes (turno, unidade, tipo de cliente, região, equipamento, operador).
  • Faça boxplots por grupo e veja se o “outlier” vira comum dentro de um subgrupo.
  • Procure variáveis explicativas associadas ao extremo (ex.: casos com comorbidade, pedidos com frete especial).

Se houver subgrupos, pode ser mais informativo descrever cada grupo separadamente do que “forçar” um único resumo global.

Comparando boxplots entre grupos (boas práticas)

O que comparar

  • Mediana: diferenças no centro/típico entre grupos.
  • IQR (altura da caixa): dispersão dos 50% centrais; caixas maiores sugerem maior variabilidade central.
  • Bigodes: extensão dos valores não-outliers; bigodes longos sugerem caudas mais longas.
  • Assimetria: mediana deslocada e bigodes desbalanceados.
  • Outliers: quantidade e distância; pode indicar heterogeneidade, erros ou eventos raros.

Cuidados para não tirar conclusões precipitadas

  • Tamanho amostral: um grupo com poucos dados pode aparentar menos outliers e ter quartis instáveis.
  • Escala do eixo: compare boxplots com o mesmo eixo; escalas diferentes enganam a percepção.
  • Distribuições diferentes: dois grupos podem ter a mesma mediana, mas dispersões muito distintas (ou vice-versa).
  • Outliers não são “ruído automático”: podem ser parte importante do fenômeno.
  • Boxplot não mostra tudo: ele resume; se necessário, complemente com histograma/densidade ou pontos (stripchart) para ver multimodalidade e concentração.

Checklist rápido para leitura de um boxplot

ElementoO que observarO que pode indicar
MedianaAltura da linhaNível típico
Caixa (Q1–Q3)Tamanho (IQR)Dispersão central
Mediana dentro da caixaMais perto de Q1 ou Q3Assimetria
BigodesComprimentos e equilíbrioCaudas e assimetria
Pontos foraQuantidade e distânciaPossíveis outliers (investigar)

Mini-roteiro para aplicar em dados reais

1) Faça o boxplot da variável (geral) e observe: mediana, IQR, bigodes, pontos fora. 2) Calcule Q1, Q3 e IQR; aplique LI/LS = Q1−1,5×IQR e Q3+1,5×IQR. 3) Liste os registros fora dos limites e verifique: unidade, digitação, plausibilidade. 4) Se forem plausíveis, procure explicações: estratifique por grupos e refaça boxplots. 5) Ao comparar grupos, use o mesmo eixo e considere o tamanho amostral antes de interpretar diferenças.

Agora responda o exercício sobre o conteúdo:

Em um boxplot que usa a regra 1,5×IQR, como os bigodes e os outliers são definidos?

Você acertou! Parabéns, agora siga para a próxima página

Você errou! Tente novamente.

Pelo critério 1,5×IQR, definem-se limites (LI/LS) a partir de Q1 e Q3. Os bigodes alcançam os valores mais extremos ainda dentro desses limites; pontos abaixo de LI ou acima de LS aparecem como possíveis outliers.

Próximo capitúlo

Estatística Descritiva do Zero: comparações entre grupos e tabelas-resumo bem construídas

Arrow Right Icon
Capa do Ebook gratuito Estatística Descritiva do Zero: Como Entender e Resumir Dados
77%

Estatística Descritiva do Zero: Como Entender e Resumir Dados

Novo curso

13 páginas

Baixe o app para ganhar Certificação grátis e ouvir os cursos em background, mesmo com a tela desligada.