Capa do Ebook gratuito Analista do IBGE: Estudo Avançado em Estatística, Geografia e Políticas Públicas

Analista do IBGE: Estudo Avançado em Estatística, Geografia e Políticas Públicas

Novo curso

15 páginas

Estatística para Analista do IBGE: estatística descritiva aplicada a bases oficiais

Capítulo 1

Tempo estimado de leitura: 13 minutos

+ Exercício

Dados oficiais e diagnóstico socioeconômico-territorial

Em diagnósticos produzidos a partir de bases oficiais, a estatística descritiva serve para resumir e comparar realidades territoriais (municípios, bairros, setores censitários, regiões) com foco em padrões, desigualdades e heterogeneidade. O objetivo não é “provar causalidade”, mas descrever distribuições, identificar concentrações, dispersões e valores atípicos que podem indicar problemas de qualidade do dado, eventos extremos ou perfis locais específicos.

Exemplos de variáveis típicas em análises do tipo IBGE: renda domiciliar per capita (R$), anos de estudo (anos), taxa de analfabetismo (%), densidade demográfica (hab/km²), proporção urbana (%), número de domicílios (contagem), e categorias como situação do domicílio (urbano/rural) ou nível de instrução (fundamental/médio/superior).

Organização de dados: tipos de variáveis e escalas de medida

Qualitativas e quantitativas

  • Qualitativas nominais: categorias sem ordem (ex.: UF, cor/raça, tipo de domicílio). Resumo típico: frequências e proporções; gráfico de barras.

  • Qualitativas ordinais: categorias com ordem (ex.: nível de instrução; faixas de renda). Resumo: frequências por ordem; mediana de categoria pode fazer sentido em alguns casos; barras ordenadas.

  • Quantitativas discretas: contagens (ex.: número de moradores). Resumo: média/mediana/moda, dispersão; histogramas (com cuidado) ou barras.

    Continue em nosso aplicativo

    Você poderá ouvir o audiobook com a tela desligada, ganhar gratuitamente o certificado deste curso e ainda ter acesso a outros 5.000 cursos online gratuitos.

    ou continue lendo abaixo...
    Download App

    Baixar o aplicativo

  • Quantitativas contínuas: medidas em escala contínua (ex.: renda, densidade). Resumo: média/mediana/quantis, dispersão, boxplot e histograma.

Escalas de medida (implicações práticas)

  • Nominal: só faz sentido contar e comparar proporções (não existe “média” de UF).

  • Ordinal: há ordenação; diferenças entre categorias não são necessariamente iguais (ex.: “médio” para “superior” não é um salto numérico fixo).

  • Intervalar: diferenças são comparáveis, mas não há zero absoluto (ex.: temperatura em °C). Em bases socioeconômicas é menos comum.

  • Razão: zero absoluto e razões fazem sentido (ex.: renda, população, área, densidade). Permite comparações do tipo “dobrou”.

Passo a passo: checklist de preparação antes de resumir

  • 1) Defina a unidade de análise: pessoa, domicílio, município, setor censitário. Evite misturar níveis sem agregação apropriada.

  • 2) Verifique o tipo da variável: categoria, contagem, contínua; e se há codificações (ex.: 999999 como “ignorado”).

  • 3) Trate ausências: diferencie “zero” de “sem informação”. Em renda, zero pode existir; “sem rendimento” pode ser categoria; “ignorado” deve ser separado.

  • 4) Inspecione extremos: valores muito altos/baixos podem ser outliers reais ou erro de digitação/codificação.

  • 5) Padronize unidades: renda mensal vs anual; densidade em hab/km²; área em km².

Tabelas de frequência: base para leitura territorial

Frequência absoluta, relativa e acumulada

Tabelas de frequência são essenciais para variáveis categóricas (ex.: escolaridade) e também para quantitativas agrupadas em classes (ex.: faixas de renda). Em diagnósticos territoriais, elas ajudam a comparar perfis entre áreas, desde que as proporções sejam calculadas com denominadores consistentes.

  • Frequência absoluta (n): contagem de ocorrências.

  • Frequência relativa (%): n dividido pelo total (útil para comparar territórios com tamanhos diferentes).

  • Frequência acumulada: soma progressiva (útil para localizar mediana/quantis em dados agrupados).

Exemplo: distribuição de escolaridade (população 25+)

Território: Município A (população 25+ = 10.000)  Categoria                     n     %     % acumulada  Sem instrução / fund. incompleto  3.200  32,0  32,0  Fund. completo / médio incompleto  2.800  28,0  60,0  Médio completo / sup. incompleto   2.700  27,0  87,0  Superior completo                  1.300  13,0 100,0

Leitura crítica: a comparação com outro município deve usar a mesma população-alvo (25+), a mesma classificação e o mesmo período. Se um território tem muitos “ignorado”, a distribuição pode estar distorcida.

Passo a passo: como construir classes para renda

  • 1) Escolha classes com significado: faixas em salários mínimos ou quantis (ex.: 0–0,5 SM; 0,5–1 SM; 1–2 SM; 2–5 SM; 5+ SM).

  • 2) Garanta cobertura: classes devem cobrir todo o intervalo observado e ser mutuamente exclusivas.

  • 3) Prefira poucas classes para comunicação (5 a 8), e mais classes para exploração técnica.

  • 4) Documente o critério: especialmente se usar quantis (quintis/decis), pois as fronteiras mudam conforme o conjunto analisado.

Representações gráficas: escolha adequada e boas práticas

Gráfico de barras (categorias) e barras empilhadas

Use barras para comparar categorias (ex.: escolaridade, situação urbana/rural) e para comparar territórios. Para muitos territórios, prefira ordenar por uma métrica (ex.: % superior completo) e mostrar apenas os principais ou usar pequenos múltiplos.

  • Boas práticas: ordenar categorias; usar escala iniciando em zero; evitar 3D; limitar cores; rotular unidades e população-alvo.

  • Empilhado: útil para composição (ex.: distribuição de escolaridade), mas dificulta comparar segmentos intermediários; considere “100% empilhado” para proporções.

Gráfico de linhas (séries temporais)

Use linhas para evolução no tempo (ex.: taxa de desocupação, rendimento médio real). Em bases oficiais, mudanças metodológicas e quebras de série devem ser sinalizadas; comparar níveis antes/depois de mudança pode ser inadequado.

  • Boas práticas: eixos com unidades; indicar deflator quando renda está em termos reais; destacar eventos (ex.: pandemia) com anotação discreta; evitar excesso de linhas (muitos territórios) sem agregação.

Histograma (distribuições de variáveis contínuas)

O histograma mostra a forma da distribuição (assimetria, multimodalidade) e ajuda a entender por que média e mediana diferem. Em renda e densidade demográfica, é comum haver forte assimetria à direita (muitos valores baixos e poucos muito altos).

Passo a passo: como escolher o número de classes do histograma

  • 1) Comece com 10 a 20 classes para exploração.

  • 2) Ajuste para legibilidade: poucas classes escondem detalhes; muitas classes geram ruído.

  • 3) Compare com boxplot: se o histograma sugerir caudas longas, o boxplot ajuda a ver outliers.

  • 4) Considere transformação: para renda/densidade, avaliar escala log pode revelar estrutura (sem “apagar” desigualdade).

Boxplot (comparação de distribuições)

Boxplots são úteis para comparar renda ou densidade entre regiões, mostrando mediana, quartis e possíveis outliers. Em diagnósticos territoriais, permitem ver heterogeneidade interna: duas regiões podem ter a mesma média, mas dispersões muito diferentes.

  • Componentes: linha central (mediana), caixa (Q1 a Q3), “bigodes” (até 1,5×IQR), pontos fora (candidatos a outliers).

Boas práticas de visualização (padrões para relatórios técnicos)

  • Contextualize: título descritivo, unidade, período, fonte, população-alvo.

  • Comparabilidade: mesma escala e mesma métrica ao comparar territórios; cuidado com eixos truncados.

  • Legibilidade: poucas cores, contraste adequado, rótulos claros, evitar excesso de informação.

  • Incerteza e qualidade: quando aplicável, sinalize margens de erro/intervalos; destaque alta proporção de “ignorado”.

  • Normalização: para mapas e comparações, prefira taxas e proporções (ex.: por 100 mil) em vez de contagens brutas.

Medidas de posição: centro e quantis para leitura socioeconômica

Média, mediana e moda (quando usar)

  • Média: sensível a extremos; em renda costuma ser puxada para cima por poucos valores altos. Útil para contas agregadas e quando a distribuição é aproximadamente simétrica.

  • Mediana: robusta a extremos; em renda é frequentemente mais representativa do “típico”.

  • Moda: valor/categoria mais frequente; útil em variáveis discretas (número de moradores) ou categóricas (escolaridade).

Quantis (quartis, decis, percentis)

Quantis dividem a distribuição em partes iguais e são fundamentais para desigualdade e focalização: por exemplo, comparar renda mediana (P50) e renda no P90 mostra distância entre “típico” e “alto”. Em diagnósticos territoriais, quantis ajudam a identificar se um território tem “cauda” de alta renda ou se a distribuição é comprimida.

Exemplo numérico: renda domiciliar per capita (R$) em um território

Amostra (R$): 400, 500, 550, 600, 650, 700, 750, 800, 900, 3000  Média = (400+...+3000)/10 = 885  Mediana = (650+700)/2 = 675  Interpretação: a média (885) é bem maior que a mediana (675) por causa do valor 3000.

Passo a passo: calculando mediana e quartis

  • 1) Ordene os valores do menor para o maior.

  • 2) Mediana (P50): se n é par, média dos dois centrais; se n é ímpar, valor central.

  • 3) Q1 (P25): mediana da metade inferior (método deve ser consistente no relatório).

  • 4) Q3 (P75): mediana da metade superior.

  • 5) Registre o método: diferentes softwares podem usar convenções distintas para quantis; em relatórios, documente para reprodutibilidade.

Medidas de dispersão: heterogeneidade territorial

Variância e desvio-padrão

Medem o espalhamento em torno da média. Em renda, desvio-padrão alto indica grande desigualdade interna, mas lembre: como a média é sensível a extremos, o desvio-padrão também pode ser inflado por caudas longas.

  • Variância: média dos quadrados dos desvios em relação à média (unidade ao quadrado).

  • Desvio-padrão: raiz da variância (mesma unidade da variável).

Amplitude e amplitude interquartil (IQR)

  • Amplitude: máximo − mínimo; muito sensível a outliers.

  • IQR: Q3 − Q1; robusta e muito útil para renda e densidade.

Exemplo: densidade demográfica e dispersão

Ao comparar densidade (hab/km²) entre municípios, a amplitude pode ser enorme por causa de capitais muito densas. O IQR, por ser robusto, descreve melhor a “faixa típica” da maioria dos municípios.

Forma da distribuição: assimetria e curtose

Assimetria (skewness)

Indica se a cauda é mais longa à direita (assimetria positiva) ou à esquerda (negativa). Em renda e densidade, é comum assimetria positiva: muitos valores baixos e poucos muito altos.

  • Leitura prática: assimetria positiva sugere que mediana < média; e que gráficos e tabelas devem considerar quantis e escalas adequadas.

Curtose

Relaciona-se à concentração no centro e ao peso das caudas. Em diagnósticos, curtose alta pode sinalizar caudas pesadas (mais extremos do que o esperado em uma distribuição “normal”), o que reforça a necessidade de medidas robustas e inspeção de outliers.

Padronização (z-score) e comparações entre variáveis

O que é z-score

O z-score transforma valores para uma escala comum: quantos desvios-padrão um valor está acima/abaixo da média do seu conjunto. É útil para comparar indicadores com unidades diferentes (ex.: renda em R$ e densidade em hab/km²) e para detectar valores muito distantes do padrão.

z = (x - média) / desvio-padrão

Exemplo: comparando municípios em dois indicadores

Suponha que você queira identificar municípios “acima do padrão” em renda e densidade. Calcule z-score de cada indicador separadamente. Um município com z_renda = 2,0 e z_densidade = 1,5 está bem acima da média em ambos; outro com z_renda = 2,0 e z_densidade = -0,5 é rico, mas não é denso.

Passo a passo: z-score com cautelas

  • 1) Defina o universo: z-score depende do conjunto (ex.: todos os municípios do estado vs do país).

  • 2) Verifique assimetria: em distribuições muito assimétricas, z-score pode ser dominado por extremos; considere transformação (ex.: log) antes.

  • 3) Interprete como posição relativa: não é “nota de qualidade”, é distância do centro do conjunto.

  • 4) Documente: período, universo e tratamento de outliers.

Detecção de outliers: qualidade do dado vs fenômeno real

Outliers por IQR (regra de Tukey)

Um critério comum em boxplots: valores abaixo de Q1 − 1,5×IQR ou acima de Q3 + 1,5×IQR são marcados como potenciais outliers.

IQR = Q3 - Q1  Limite inferior = Q1 - 1,5*IQR  Limite superior = Q3 + 1,5*IQR

Outliers por z-score

Como regra prática, |z| > 3 pode indicar valor extremo. Em renda e densidade, isso pode ocorrer com frequência por caudas pesadas; trate como “sinal” para investigação, não como erro automático.

Passo a passo: protocolo de investigação de outliers em indicadores

  • 1) Confirme unidade e escala: renda mensal vs anual; densidade calculada com área correta.

  • 2) Verifique consistência interna: densidade = população/área; renda per capita coerente com renda domiciliar e moradores.

  • 3) Compare com pares: municípios vizinhos ou do mesmo porte; um extremo isolado pode ser real (ex.: município com grande polo industrial) ou erro.

  • 4) Consulte metadados: mudanças de metodologia, revisões, imputações.

  • 5) Decida tratamento: manter (se fenômeno real), winsorizar/capar (para análises exploratórias), ou corrigir/remover (se erro comprovado). Registre a decisão.

Exemplos aplicados (renda, escolaridade, densidade) com interpretação

Exemplo 1: renda per capita em dois municípios (comparação robusta)

Município X: média R$ 1.200, mediana R$ 800, IQR R$ 600. Município Y: média R$ 1.050, mediana R$ 900, IQR R$ 300.

  • Leitura: X tem média maior, mas mediana menor e dispersão maior; pode indicar maior desigualdade e presença de rendas muito altas. Y tem renda “típica” maior (mediana) e distribuição mais concentrada.

  • Boa prática: reportar média e mediana juntas, e incluir quantis (P10, P50, P90) para evidenciar caudas.

Exemplo 2: escolaridade (composição e comparabilidade)

Se a proporção de “superior completo” é 18% em uma capital e 6% em um município pequeno, compare também a estrutura etária e a população-alvo (25+). Uma diferença pode refletir migração seletiva, oferta de ensino superior, ou composição demográfica.

Exemplo 3: densidade demográfica (escala e outliers)

Ao plotar histograma de densidade para todos os municípios do país, a distribuição tende a ser altamente assimétrica. Um boxplot por região pode mostrar que poucos municípios muito densos (capitais) aparecem como outliers. Isso é esperado e informativo; não deve ser tratado como erro.

Exercícios (interpretação crítica de tabelas e gráficos)

Exercício 1: tabela de frequência e leitura de perfil

Território: Região R (população 25+ = 50.000)  Categoria                     n     %  Sem instrução / fund. incompleto  20.000  40  Fund. completo / médio incompleto  12.500  25  Médio completo / sup. incompleto   12.000  24  Superior completo                   5.500  11
  • a) Qual a categoria modal? O que isso sugere sobre o estoque de capital humano?

  • b) Se 8% estão em “ignorado” (não mostrado), como isso afetaria as proporções? O que você faria no relatório?

Exercício 2: média vs mediana em renda

Território A: média 1.500; mediana 900; P90 3.800  Território B: média 1.300; mediana 1.000; P90 2.700
  • a) Em qual território a renda “típica” é maior? Justifique.

  • b) Qual território parece mais desigual? Use as estatísticas fornecidas.

  • c) Se você tivesse que escolher um único número para comunicação pública, qual usaria (média ou mediana) e por quê?

Exercício 3: boxplot por região (interpretação)

Você recebe um boxplot de densidade demográfica por macrorregião. No Norte, a caixa é baixa e os bigodes curtos; no Sudeste, a caixa é mais alta e há muitos pontos acima do bigode superior.

  • a) O que isso sugere sobre a distribuição de densidade no Sudeste?

  • b) Por que pode haver muitos outliers “altos” e isso ainda ser consistente com dados corretos?

  • c) Que gráfico complementar você faria para comunicar melhor (histograma, mapa, barras por classe)? Explique.

Exercício 4: z-score e ranking (cuidado com interpretação)

Município M: z_renda = 2,4; z_escolaridade = 1,1; z_densidade = -0,8  Município N: z_renda = 0,2; z_escolaridade = 1,9; z_densidade = 1,6
  • a) Qual município está mais “acima do padrão” em escolaridade?

  • b) Qual tem perfil de alta renda sem alta densidade? O que isso pode sugerir territorialmente?

  • c) Cite dois riscos de usar z-score para “classificar” municípios sem contexto.

Exercício 5: diagnóstico de outliers

Em uma base municipal, um município aparece com densidade de 50.000 hab/km², muito acima dos demais. Descreva um procedimento para verificar se: (i) é erro de área, (ii) é erro de população, (iii) é um município muito pequeno e altamente urbanizado (fenômeno real). Indique quais checagens faria e como documentaria a decisão.

Agora responda o exercício sobre o conteúdo:

Em um diagnóstico territorial de renda domiciliar per capita, observa-se que a média é bem maior que a mediana. Qual interpretação é mais adequada e qual medida tende a representar melhor a renda “típica” nesse caso?

Você acertou! Parabéns, agora siga para a próxima página

Você errou! Tente novamente.

Quando poucos valores muito altos elevam a média, a distribuição tende a ser assimétrica à direita. Nessa situação, a mediana é mais robusta a extremos e costuma representar melhor a renda “típica”.

Próximo capitúlo

Estatística para Analista do IBGE: correlação, regressão e análise exploratória de dados

Arrow Right Icon
Baixe o app para ganhar Certificação grátis e ouvir os cursos em background, mesmo com a tela desligada.