Dados oficiais e diagnóstico socioeconômico-territorial
Em diagnósticos produzidos a partir de bases oficiais, a estatística descritiva serve para resumir e comparar realidades territoriais (municípios, bairros, setores censitários, regiões) com foco em padrões, desigualdades e heterogeneidade. O objetivo não é “provar causalidade”, mas descrever distribuições, identificar concentrações, dispersões e valores atípicos que podem indicar problemas de qualidade do dado, eventos extremos ou perfis locais específicos.
Exemplos de variáveis típicas em análises do tipo IBGE: renda domiciliar per capita (R$), anos de estudo (anos), taxa de analfabetismo (%), densidade demográfica (hab/km²), proporção urbana (%), número de domicílios (contagem), e categorias como situação do domicílio (urbano/rural) ou nível de instrução (fundamental/médio/superior).
Organização de dados: tipos de variáveis e escalas de medida
Qualitativas e quantitativas
Qualitativas nominais: categorias sem ordem (ex.: UF, cor/raça, tipo de domicílio). Resumo típico: frequências e proporções; gráfico de barras.
Qualitativas ordinais: categorias com ordem (ex.: nível de instrução; faixas de renda). Resumo: frequências por ordem; mediana de categoria pode fazer sentido em alguns casos; barras ordenadas.
Quantitativas discretas: contagens (ex.: número de moradores). Resumo: média/mediana/moda, dispersão; histogramas (com cuidado) ou barras.
Continue em nosso aplicativo
Você poderá ouvir o audiobook com a tela desligada, ganhar gratuitamente o certificado deste curso e ainda ter acesso a outros 5.000 cursos online gratuitos.
ou continue lendo abaixo...Baixar o aplicativo
Quantitativas contínuas: medidas em escala contínua (ex.: renda, densidade). Resumo: média/mediana/quantis, dispersão, boxplot e histograma.
Escalas de medida (implicações práticas)
Nominal: só faz sentido contar e comparar proporções (não existe “média” de UF).
Ordinal: há ordenação; diferenças entre categorias não são necessariamente iguais (ex.: “médio” para “superior” não é um salto numérico fixo).
Intervalar: diferenças são comparáveis, mas não há zero absoluto (ex.: temperatura em °C). Em bases socioeconômicas é menos comum.
Razão: zero absoluto e razões fazem sentido (ex.: renda, população, área, densidade). Permite comparações do tipo “dobrou”.
Passo a passo: checklist de preparação antes de resumir
1) Defina a unidade de análise: pessoa, domicílio, município, setor censitário. Evite misturar níveis sem agregação apropriada.
2) Verifique o tipo da variável: categoria, contagem, contínua; e se há codificações (ex.: 999999 como “ignorado”).
3) Trate ausências: diferencie “zero” de “sem informação”. Em renda, zero pode existir; “sem rendimento” pode ser categoria; “ignorado” deve ser separado.
4) Inspecione extremos: valores muito altos/baixos podem ser outliers reais ou erro de digitação/codificação.
5) Padronize unidades: renda mensal vs anual; densidade em hab/km²; área em km².
Tabelas de frequência: base para leitura territorial
Frequência absoluta, relativa e acumulada
Tabelas de frequência são essenciais para variáveis categóricas (ex.: escolaridade) e também para quantitativas agrupadas em classes (ex.: faixas de renda). Em diagnósticos territoriais, elas ajudam a comparar perfis entre áreas, desde que as proporções sejam calculadas com denominadores consistentes.
Frequência absoluta (n): contagem de ocorrências.
Frequência relativa (%): n dividido pelo total (útil para comparar territórios com tamanhos diferentes).
Frequência acumulada: soma progressiva (útil para localizar mediana/quantis em dados agrupados).
Exemplo: distribuição de escolaridade (população 25+)
Território: Município A (população 25+ = 10.000) Categoria n % % acumulada Sem instrução / fund. incompleto 3.200 32,0 32,0 Fund. completo / médio incompleto 2.800 28,0 60,0 Médio completo / sup. incompleto 2.700 27,0 87,0 Superior completo 1.300 13,0 100,0Leitura crítica: a comparação com outro município deve usar a mesma população-alvo (25+), a mesma classificação e o mesmo período. Se um território tem muitos “ignorado”, a distribuição pode estar distorcida.
Passo a passo: como construir classes para renda
1) Escolha classes com significado: faixas em salários mínimos ou quantis (ex.: 0–0,5 SM; 0,5–1 SM; 1–2 SM; 2–5 SM; 5+ SM).
2) Garanta cobertura: classes devem cobrir todo o intervalo observado e ser mutuamente exclusivas.
3) Prefira poucas classes para comunicação (5 a 8), e mais classes para exploração técnica.
4) Documente o critério: especialmente se usar quantis (quintis/decis), pois as fronteiras mudam conforme o conjunto analisado.
Representações gráficas: escolha adequada e boas práticas
Gráfico de barras (categorias) e barras empilhadas
Use barras para comparar categorias (ex.: escolaridade, situação urbana/rural) e para comparar territórios. Para muitos territórios, prefira ordenar por uma métrica (ex.: % superior completo) e mostrar apenas os principais ou usar pequenos múltiplos.
Boas práticas: ordenar categorias; usar escala iniciando em zero; evitar 3D; limitar cores; rotular unidades e população-alvo.
Empilhado: útil para composição (ex.: distribuição de escolaridade), mas dificulta comparar segmentos intermediários; considere “100% empilhado” para proporções.
Gráfico de linhas (séries temporais)
Use linhas para evolução no tempo (ex.: taxa de desocupação, rendimento médio real). Em bases oficiais, mudanças metodológicas e quebras de série devem ser sinalizadas; comparar níveis antes/depois de mudança pode ser inadequado.
Boas práticas: eixos com unidades; indicar deflator quando renda está em termos reais; destacar eventos (ex.: pandemia) com anotação discreta; evitar excesso de linhas (muitos territórios) sem agregação.
Histograma (distribuições de variáveis contínuas)
O histograma mostra a forma da distribuição (assimetria, multimodalidade) e ajuda a entender por que média e mediana diferem. Em renda e densidade demográfica, é comum haver forte assimetria à direita (muitos valores baixos e poucos muito altos).
Passo a passo: como escolher o número de classes do histograma
1) Comece com 10 a 20 classes para exploração.
2) Ajuste para legibilidade: poucas classes escondem detalhes; muitas classes geram ruído.
3) Compare com boxplot: se o histograma sugerir caudas longas, o boxplot ajuda a ver outliers.
4) Considere transformação: para renda/densidade, avaliar escala log pode revelar estrutura (sem “apagar” desigualdade).
Boxplot (comparação de distribuições)
Boxplots são úteis para comparar renda ou densidade entre regiões, mostrando mediana, quartis e possíveis outliers. Em diagnósticos territoriais, permitem ver heterogeneidade interna: duas regiões podem ter a mesma média, mas dispersões muito diferentes.
Componentes: linha central (mediana), caixa (Q1 a Q3), “bigodes” (até 1,5×IQR), pontos fora (candidatos a outliers).
Boas práticas de visualização (padrões para relatórios técnicos)
Contextualize: título descritivo, unidade, período, fonte, população-alvo.
Comparabilidade: mesma escala e mesma métrica ao comparar territórios; cuidado com eixos truncados.
Legibilidade: poucas cores, contraste adequado, rótulos claros, evitar excesso de informação.
Incerteza e qualidade: quando aplicável, sinalize margens de erro/intervalos; destaque alta proporção de “ignorado”.
Normalização: para mapas e comparações, prefira taxas e proporções (ex.: por 100 mil) em vez de contagens brutas.
Medidas de posição: centro e quantis para leitura socioeconômica
Média, mediana e moda (quando usar)
Média: sensível a extremos; em renda costuma ser puxada para cima por poucos valores altos. Útil para contas agregadas e quando a distribuição é aproximadamente simétrica.
Mediana: robusta a extremos; em renda é frequentemente mais representativa do “típico”.
Moda: valor/categoria mais frequente; útil em variáveis discretas (número de moradores) ou categóricas (escolaridade).
Quantis (quartis, decis, percentis)
Quantis dividem a distribuição em partes iguais e são fundamentais para desigualdade e focalização: por exemplo, comparar renda mediana (P50) e renda no P90 mostra distância entre “típico” e “alto”. Em diagnósticos territoriais, quantis ajudam a identificar se um território tem “cauda” de alta renda ou se a distribuição é comprimida.
Exemplo numérico: renda domiciliar per capita (R$) em um território
Amostra (R$): 400, 500, 550, 600, 650, 700, 750, 800, 900, 3000 Média = (400+...+3000)/10 = 885 Mediana = (650+700)/2 = 675 Interpretação: a média (885) é bem maior que a mediana (675) por causa do valor 3000.Passo a passo: calculando mediana e quartis
1) Ordene os valores do menor para o maior.
2) Mediana (P50): se n é par, média dos dois centrais; se n é ímpar, valor central.
3) Q1 (P25): mediana da metade inferior (método deve ser consistente no relatório).
4) Q3 (P75): mediana da metade superior.
5) Registre o método: diferentes softwares podem usar convenções distintas para quantis; em relatórios, documente para reprodutibilidade.
Medidas de dispersão: heterogeneidade territorial
Variância e desvio-padrão
Medem o espalhamento em torno da média. Em renda, desvio-padrão alto indica grande desigualdade interna, mas lembre: como a média é sensível a extremos, o desvio-padrão também pode ser inflado por caudas longas.
Variância: média dos quadrados dos desvios em relação à média (unidade ao quadrado).
Desvio-padrão: raiz da variância (mesma unidade da variável).
Amplitude e amplitude interquartil (IQR)
Amplitude: máximo − mínimo; muito sensível a outliers.
IQR: Q3 − Q1; robusta e muito útil para renda e densidade.
Exemplo: densidade demográfica e dispersão
Ao comparar densidade (hab/km²) entre municípios, a amplitude pode ser enorme por causa de capitais muito densas. O IQR, por ser robusto, descreve melhor a “faixa típica” da maioria dos municípios.
Forma da distribuição: assimetria e curtose
Assimetria (skewness)
Indica se a cauda é mais longa à direita (assimetria positiva) ou à esquerda (negativa). Em renda e densidade, é comum assimetria positiva: muitos valores baixos e poucos muito altos.
Leitura prática: assimetria positiva sugere que mediana < média; e que gráficos e tabelas devem considerar quantis e escalas adequadas.
Curtose
Relaciona-se à concentração no centro e ao peso das caudas. Em diagnósticos, curtose alta pode sinalizar caudas pesadas (mais extremos do que o esperado em uma distribuição “normal”), o que reforça a necessidade de medidas robustas e inspeção de outliers.
Padronização (z-score) e comparações entre variáveis
O que é z-score
O z-score transforma valores para uma escala comum: quantos desvios-padrão um valor está acima/abaixo da média do seu conjunto. É útil para comparar indicadores com unidades diferentes (ex.: renda em R$ e densidade em hab/km²) e para detectar valores muito distantes do padrão.
z = (x - média) / desvio-padrãoExemplo: comparando municípios em dois indicadores
Suponha que você queira identificar municípios “acima do padrão” em renda e densidade. Calcule z-score de cada indicador separadamente. Um município com z_renda = 2,0 e z_densidade = 1,5 está bem acima da média em ambos; outro com z_renda = 2,0 e z_densidade = -0,5 é rico, mas não é denso.
Passo a passo: z-score com cautelas
1) Defina o universo: z-score depende do conjunto (ex.: todos os municípios do estado vs do país).
2) Verifique assimetria: em distribuições muito assimétricas, z-score pode ser dominado por extremos; considere transformação (ex.: log) antes.
3) Interprete como posição relativa: não é “nota de qualidade”, é distância do centro do conjunto.
4) Documente: período, universo e tratamento de outliers.
Detecção de outliers: qualidade do dado vs fenômeno real
Outliers por IQR (regra de Tukey)
Um critério comum em boxplots: valores abaixo de Q1 − 1,5×IQR ou acima de Q3 + 1,5×IQR são marcados como potenciais outliers.
IQR = Q3 - Q1 Limite inferior = Q1 - 1,5*IQR Limite superior = Q3 + 1,5*IQROutliers por z-score
Como regra prática, |z| > 3 pode indicar valor extremo. Em renda e densidade, isso pode ocorrer com frequência por caudas pesadas; trate como “sinal” para investigação, não como erro automático.
Passo a passo: protocolo de investigação de outliers em indicadores
1) Confirme unidade e escala: renda mensal vs anual; densidade calculada com área correta.
2) Verifique consistência interna: densidade = população/área; renda per capita coerente com renda domiciliar e moradores.
3) Compare com pares: municípios vizinhos ou do mesmo porte; um extremo isolado pode ser real (ex.: município com grande polo industrial) ou erro.
4) Consulte metadados: mudanças de metodologia, revisões, imputações.
5) Decida tratamento: manter (se fenômeno real), winsorizar/capar (para análises exploratórias), ou corrigir/remover (se erro comprovado). Registre a decisão.
Exemplos aplicados (renda, escolaridade, densidade) com interpretação
Exemplo 1: renda per capita em dois municípios (comparação robusta)
Município X: média R$ 1.200, mediana R$ 800, IQR R$ 600. Município Y: média R$ 1.050, mediana R$ 900, IQR R$ 300.
Leitura: X tem média maior, mas mediana menor e dispersão maior; pode indicar maior desigualdade e presença de rendas muito altas. Y tem renda “típica” maior (mediana) e distribuição mais concentrada.
Boa prática: reportar média e mediana juntas, e incluir quantis (P10, P50, P90) para evidenciar caudas.
Exemplo 2: escolaridade (composição e comparabilidade)
Se a proporção de “superior completo” é 18% em uma capital e 6% em um município pequeno, compare também a estrutura etária e a população-alvo (25+). Uma diferença pode refletir migração seletiva, oferta de ensino superior, ou composição demográfica.
Exemplo 3: densidade demográfica (escala e outliers)
Ao plotar histograma de densidade para todos os municípios do país, a distribuição tende a ser altamente assimétrica. Um boxplot por região pode mostrar que poucos municípios muito densos (capitais) aparecem como outliers. Isso é esperado e informativo; não deve ser tratado como erro.
Exercícios (interpretação crítica de tabelas e gráficos)
Exercício 1: tabela de frequência e leitura de perfil
Território: Região R (população 25+ = 50.000) Categoria n % Sem instrução / fund. incompleto 20.000 40 Fund. completo / médio incompleto 12.500 25 Médio completo / sup. incompleto 12.000 24 Superior completo 5.500 11a) Qual a categoria modal? O que isso sugere sobre o estoque de capital humano?
b) Se 8% estão em “ignorado” (não mostrado), como isso afetaria as proporções? O que você faria no relatório?
Exercício 2: média vs mediana em renda
Território A: média 1.500; mediana 900; P90 3.800 Território B: média 1.300; mediana 1.000; P90 2.700a) Em qual território a renda “típica” é maior? Justifique.
b) Qual território parece mais desigual? Use as estatísticas fornecidas.
c) Se você tivesse que escolher um único número para comunicação pública, qual usaria (média ou mediana) e por quê?
Exercício 3: boxplot por região (interpretação)
Você recebe um boxplot de densidade demográfica por macrorregião. No Norte, a caixa é baixa e os bigodes curtos; no Sudeste, a caixa é mais alta e há muitos pontos acima do bigode superior.
a) O que isso sugere sobre a distribuição de densidade no Sudeste?
b) Por que pode haver muitos outliers “altos” e isso ainda ser consistente com dados corretos?
c) Que gráfico complementar você faria para comunicar melhor (histograma, mapa, barras por classe)? Explique.
Exercício 4: z-score e ranking (cuidado com interpretação)
Município M: z_renda = 2,4; z_escolaridade = 1,1; z_densidade = -0,8 Município N: z_renda = 0,2; z_escolaridade = 1,9; z_densidade = 1,6a) Qual município está mais “acima do padrão” em escolaridade?
b) Qual tem perfil de alta renda sem alta densidade? O que isso pode sugerir territorialmente?
c) Cite dois riscos de usar z-score para “classificar” municípios sem contexto.
Exercício 5: diagnóstico de outliers
Em uma base municipal, um município aparece com densidade de 50.000 hab/km², muito acima dos demais. Descreva um procedimento para verificar se: (i) é erro de área, (ii) é erro de população, (iii) é um município muito pequeno e altamente urbanizado (fenômeno real). Indique quais checagens faria e como documentaria a decisão.