Capa do Ebook gratuito Analista do IBGE: Estudo Avançado em Estatística, Geografia e Políticas Públicas

Analista do IBGE: Estudo Avançado em Estatística, Geografia e Políticas Públicas

Novo curso

15 páginas

Estatística para Analista do IBGE: correlação, regressão e análise exploratória de dados

Capítulo 2

Tempo estimado de leitura: 12 minutos

+ Exercício

Análise bivariada e multivariada em fenômenos geográficos e sociais

Em bases territoriais e sociais (municípios, setores censitários, regiões imediatas), muitas perguntas começam com relações entre duas variáveis (bivariada) e evoluem para modelos com várias variáveis explicativas (multivariada). Exemplos típicos: como a urbanização se relaciona com renda? Como acessibilidade, estrutura produtiva e escolaridade se combinam para explicar produtividade? A análise bivariada ajuda a identificar padrões iniciais; a multivariada permite controlar fatores de confusão e quantificar efeitos marginais.

Boas práticas antes de correlacionar ou regredir

  • Unidade de análise e comparabilidade: confirme se as variáveis estão no mesmo nível territorial e período (ex.: município em 2022).
  • Taxas e padronizações: prefira indicadores comparáveis (ex.: densidade, proporções, log de valores monetários) para evitar que tamanho populacional domine a relação.
  • Inspeção visual: um diagrama de dispersão (scatter) revela não linearidade, clusters regionais e outliers.
  • Dependência espacial: em dados territoriais, municípios vizinhos tendem a ser semelhantes; isso pode afetar inferência (erros-padrão) e gerar padrões aparentes.

Covariância e correlação

Covariância: conceito e interpretação

A covariância mede como duas variáveis variam juntas. Para duas variáveis X e Y, a covariância amostral é:

cov(X,Y) = Σ (xi - x̄)(yi - ȳ) / (n - 1)

Se for positiva, valores acima da média em X tendem a ocorrer com valores acima da média em Y; se negativa, ocorre o oposto. A limitação é a escala: a magnitude depende das unidades (km, R$, %), dificultando comparação entre pares de variáveis.

Correlação de Pearson: conceito, quando usar e limitações

A correlação de Pearson padroniza a covariância e varia entre -1 e 1:

r = cov(X,Y) / (sX * sY)

Quando usar: relação aproximadamente linear, variáveis contínuas (ou quase contínuas), e quando outliers não dominam o padrão.

Continue em nosso aplicativo

Você poderá ouvir o audiobook com a tela desligada, ganhar gratuitamente o certificado deste curso e ainda ter acesso a outros 5.000 cursos online gratuitos.

ou continue lendo abaixo...
Download App

Baixar o aplicativo

Interpretação prática: r = 0,70 sugere associação linear positiva forte; r = -0,40 indica associação negativa moderada. O sinal indica direção; o módulo indica força linear (não causalidade).

Correlação de Spearman: conceito e quando preferir

A correlação de Spearman (ρ) é a correlação de Pearson aplicada aos postos (ranks). Ela captura relações monotônicas (crescentes ou decrescentes), mesmo que não lineares, e é mais robusta a outliers.

Quando preferir: variáveis com assimetria forte, presença de outliers, escalas ordinais (ex.: categorias ordenadas), ou relação monotônica não linear (ex.: ganhos de acessibilidade com retornos decrescentes).

Passo a passo prático: calcular e interpretar correlações

  • 1) Defina a pergunta: “Municípios mais urbanizados têm maior renda per capita?”
  • 2) Prepare variáveis: urbanização (% população urbana) e renda per capita (R$), considere log(renda) se houver cauda longa.
  • 3) Visualize: scatter e, se útil, uma linha de tendência (LOESS) para checar linearidade.
  • 4) Calcule Pearson e Spearman: compare resultados; divergências sugerem não linearidade ou influência de outliers.
  • 5) Verifique outliers: identifique municípios extremos (capitais, polos industriais) e avalie sensibilidade (com e sem eles).
  • 6) Interprete com cautela: correlação não implica causalidade; considere variáveis omitidas (estrutura produtiva, escolaridade, região).

Armadilhas: correlação espúria, outliers e variáveis de composição

  • Correlação espúria por tendência comum: duas séries podem crescer ao longo do tempo por motivos distintos e ainda assim correlacionar (ex.: urbanização e acesso à internet ao longo de décadas). Em painel/tempo, considere diferenciar, usar efeitos fixos ou controlar por tendência.
  • Variável omitida: renda e urbanização podem correlacionar porque ambas são influenciadas por estrutura produtiva e centralidade regional.
  • Outliers: poucos municípios podem “puxar” r. Spearman e diagnósticos de influência ajudam.
  • Composicionais: proporções que somam 100% (ex.: participação setorial agro/indústria/serviços) geram dependência entre componentes; interpretar correlações diretas pode ser enganoso.

Regressão linear simples

Conceito e modelo

A regressão linear simples estima a relação média entre uma variável resposta Y e um preditor X:

Y = β0 + β1 X + ε

β1 é a variação média esperada em Y para um aumento de 1 unidade em X, mantendo o restante constante (no caso simples, “restante” é apenas o termo de erro).

Mínimos quadrados ordinários (MQO): ideia e estimação

O MQO escolhe β0 e β1 para minimizar a soma dos quadrados dos resíduos (diferenças entre observado e previsto):

min Σ (yi - ŷi)^2

Isso produz uma reta que “melhor se ajusta” no sentido de erro quadrático médio.

Interpretação de coeficientes com exemplo territorial

Exemplo: Y = log(renda per capita) e X = urbanização (%). Se β1 = 0,012, então um aumento de 1 ponto percentual na urbanização está associado a aproximadamente 1,2% a mais na renda per capita (aproximação válida para coeficientes pequenos em log).

R²: o que mede e o que não mede

R² é a proporção da variância de Y explicada pelo modelo. Um R² alto não garante causalidade, nem garante bom desempenho preditivo fora da amostra, e pode ser inflado por variáveis redundantes em modelos múltiplos.

Passo a passo prático: ajustar e checar regressão simples

  • 1) Especifique: escolha Y e X e justifique o sentido (por teoria/hipótese).
  • 2) Ajuste o modelo: estime β0 e β1 por MQO.
  • 3) Leia a tabela: coeficientes, erros-padrão, estatística t e p-valor (significância estatística não é sinônimo de relevância substantiva).
  • 4) Avalie R²: compare com modelos alternativos, mas não use como único critério.
  • 5) Diagnóstico de resíduos: verifique padrão (não linearidade), variância não constante e outliers.

Regressão linear múltipla

Conceito e utilidade

Na regressão múltipla, Y é explicada por vários preditores, permitindo controle de fatores de confusão:

Y = β0 + β1 X1 + β2 X2 + ... + βk Xk + ε

βj é o efeito marginal associado a Xj, mantendo os demais X constantes.

R² ajustado: por que usar

R² sempre aumenta (ou não diminui) ao adicionar variáveis. O R² ajustado penaliza a inclusão de preditores e é mais adequado para comparar modelos com números diferentes de variáveis.

Interpretação de coeficientes: exemplo com acessibilidade, urbanização e estrutura produtiva

Suponha Y = log(produtividade do trabalho). Preditores: X1 = índice de acessibilidade (maior = mais acesso), X2 = urbanização (%), X3 = participação da indústria (%). Se β1 > 0 e significativo, isso sugere que, para municípios com mesma urbanização e mesma participação industrial, maior acessibilidade está associada a maior produtividade média.

Análise de resíduos: o que procurar

  • Resíduos vs. valores ajustados: padrão em “U” sugere não linearidade; formato de funil sugere heterocedasticidade.
  • Resíduos vs. cada preditor: ajuda a detectar necessidade de transformação ou termos não lineares.
  • Normalidade dos resíduos: relevante principalmente para inferência em amostras pequenas; em amostras grandes, foque em especificação e heterocedasticidade.
  • Pontos influentes: observações com alta alavancagem podem alterar coeficientes; avalie medidas de influência (ex.: Cook’s distance).

Multicolinearidade e VIF

Multicolinearidade ocorre quando preditores são altamente correlacionados (ex.: urbanização e densidade populacional). Isso não necessariamente piora a previsão, mas aumenta erros-padrão e instabilidade dos coeficientes.

O VIF (Variance Inflation Factor) para Xj é:

VIFj = 1 / (1 - Rj^2)

onde Rj² vem da regressão de Xj contra os demais preditores. Valores altos indicam colinearidade. Como regra prática, VIF acima de 5 (ou 10, em critérios mais permissivos) merece investigação.

Heterocedasticidade: testes e ajustes

Heterocedasticidade é variância não constante dos erros (comum em dados municipais: municípios maiores têm dispersão maior). Isso afeta erros-padrão e testes de significância.

  • Testes: Breusch–Pagan e White são usados para detectar heterocedasticidade.
  • Ajustes: use erros-padrão robustos (HC) para inferência; em alguns casos, considere ponderação (WLS) quando houver estrutura clara de variância (ex.: ponderar por população).

Transformações e termos de interação

  • Log-transformação: útil para variáveis monetárias e de escala (PIB, renda, distância), reduz assimetria e permite interpretação percentual.
  • Termos quadráticos: capturam retornos decrescentes (ex.: efeito de acessibilidade pode saturar).
  • Interações: permitem que o efeito de X1 dependa de X2. Exemplo:
log(renda) = β0 + β1 acessibilidade + β2 urbanização + β3 (acessibilidade*urbanização) + ε

Se β3 > 0, a associação entre acessibilidade e renda é mais forte em municípios mais urbanizados. Para interpretar, calcule o efeito marginal: ∂Y/∂acessibilidade = β1 + β3*urbanização.

Estudos de caso (com leitura de resultados e justificativas)

Estudo de caso 1: acessibilidade e renda, com urbanização como controle

Contexto: Y = log(renda per capita). X1 = índice de acessibilidade (0–100). X2 = urbanização (%). Amostra: municípios.

Resultados hipotéticos:

log(renda) = 6,20 + 0,006*acessibilidade + 0,010*urbanização
  • Interpretação: +10 pontos em acessibilidade associam-se a ~6% a mais de renda (0,006*10 = 0,06). +10 p.p. em urbanização associam-se a ~10% a mais de renda.
  • Justificativa substantiva: acessibilidade pode reduzir custos de transporte e ampliar mercados; urbanização pode refletir aglomeração e oferta de serviços.
  • Checagens necessárias: outliers (capitais), heterocedasticidade (municípios grandes), e possível variável omitida (estrutura produtiva, escolaridade).

Estudo de caso 2: produtividade e estrutura produtiva, com multicolinearidade

Contexto: Y = log(produtividade). Preditores: X1 = participação da indústria (%), X2 = participação de serviços (%), X3 = urbanização (%), X4 = acessibilidade.

Sinal de problema: indústria e serviços podem ser fortemente dependentes por composição (somam com agro). Isso pode gerar VIF alto e coeficientes instáveis (sinais inesperados).

Leitura de saída hipotética:

VIF(indústria)=12, VIF(serviços)=11, VIF(urbanização)=4, VIF(acessibilidade)=3
  • Interpretação: há multicolinearidade forte entre indústria e serviços; erros-padrão tendem a inflar, dificultando identificar efeitos separados.
  • Ajustes possíveis: (a) remover um componente e interpretar o restante como “em relação ao omitido”; (b) usar uma variável sintética (ex.: índice de complexidade/estrutura produtiva); (c) reespecificar com participação do agro e apenas um dos demais; (d) aplicar transformação apropriada para dados composicionais, se for o caso.

Estudo de caso 3: heterocedasticidade e correção com erros robustos

Contexto: Y = taxa de formalização do emprego (%). X = log(PIB municipal). Municípios pequenos exibem maior variabilidade.

Diagnóstico: gráfico de resíduos em funil e teste de Breusch–Pagan com p < 0,05.

  • Leitura: há evidência de heterocedasticidade; os coeficientes de MQO podem permanecer não viesados sob exogeneidade, mas os erros-padrão usuais ficam incorretos.
  • Ajuste: reportar erros-padrão robustos (HC) e comparar com os clássicos; se houver justificativa, considerar WLS com pesos proporcionais ao tamanho populacional.

Lista de exercícios (com leitura de resultados e justificativas)

Exercício 1: Pearson vs. Spearman e outliers

Você calcula a associação entre urbanização (%) e renda per capita (R$) em municípios e obtém: Pearson r = 0,62; Spearman ρ = 0,78. No scatter, há alguns municípios com renda muito alta e urbanização média.

  • Tarefa: explique por que ρ > r e o que isso sugere sobre a relação e os outliers.
  • Resposta esperada: Spearman usa postos e é menos sensível a outliers; ρ maior sugere relação monotônica forte, mas a linearidade pode estar sendo prejudicada por outliers (municípios muito ricos) ou por curvatura. Recomenda-se checar influência e considerar transformação (log renda) ou modelo não linear.

Exercício 2: correlação espúria por variável omitida

Em uma amostra de municípios, a correlação entre acessibilidade e taxa de escolarização é 0,55. Ao estratificar por macrorregião, as correlações caem para perto de 0,10 em todas as regiões.

  • Tarefa: interprete o que ocorreu e proponha uma abordagem multivariada.
  • Resposta esperada: a correlação agregada era parcialmente explicada por diferenças entre regiões (fator de confusão). Uma abordagem é regressão múltipla com dummies regionais (ou efeitos fixos) e outras covariáveis; isso separa variação “entre regiões” da variação “dentro da região”.

Exercício 3: interpretação de coeficientes em regressão simples

Modelo: log(renda) = 6,10 + 0,015*urbanização.

  • Tarefa: interprete o coeficiente 0,015 para um aumento de 5 p.p. na urbanização.
  • Resposta esperada: aumento esperado em log(renda) é 0,015*5 = 0,075, aproximadamente 7,5% a mais de renda per capita (aproximação log-linear).

Exercício 4: R² vs. R² ajustado na comparação de modelos

Modelo A (X: urbanização) tem R² = 0,40 e R² ajustado = 0,40. Modelo B (X: urbanização, acessibilidade, densidade, 10 dummies regionais) tem R² = 0,55 e R² ajustado = 0,46.

  • Tarefa: qual modelo parece melhor para explicação parcimoniosa? Justifique.
  • Resposta esperada: o ganho em R² ajustado é pequeno (0,40 para 0,46) apesar de muitas variáveis; isso sugere que parte do aumento do R² vem de complexidade. Para explicação parcimoniosa, A pode ser preferível; para controle regional e melhor ajuste, B pode ser usado, mas deve-se justificar a inclusão e avaliar generalização.

Exercício 5: multicolinearidade e VIF

Em um modelo com urbanização, densidade populacional e acessibilidade, você obtém VIF(urbanização)=8, VIF(densidade)=9, VIF(acessibilidade)=2.

  • Tarefa: o que isso implica e quais ações tomar?
  • Resposta esperada: urbanização e densidade estão colineares; coeficientes podem ficar instáveis e com grande incerteza. Ações: remover uma das variáveis, combinar em um índice, centrar/normalizar (não resolve colinearidade estrutural), ou reespecificar a pergunta (qual conceito é essencial: adensamento ou urbanização?).

Exercício 6: heterocedasticidade e inferência

Você estima uma regressão múltipla e o teste de Breusch–Pagan retorna p = 0,002. O coeficiente de acessibilidade é 0,004 com p = 0,03 usando erros-padrão clássicos, mas p = 0,12 com erros robustos.

  • Tarefa: como reportar e interpretar?
  • Resposta esperada: há evidência de heterocedasticidade; a inferência deve usar erros robustos. O efeito estimado permanece 0,004, mas a evidência estatística enfraquece; deve-se reportar erros robustos e discutir que a significância dependia da suposição de variância constante.

Exercício 7: termo de interação e efeito marginal

Modelo: log(renda) = 6,00 + 0,003*acess + 0,008*urb + 0,00005*(acess*urb). Urbanização (urb) está em pontos percentuais.

  • Tarefa: calcule o efeito marginal de acessibilidade quando urb=20 e quando urb=80. Interprete.
  • Resposta esperada: efeito marginal = 0,003 + 0,00005*urb. Para urb=20: 0,003 + 0,001 = 0,004 (10 pontos em acess ~4%). Para urb=80: 0,003 + 0,004 = 0,007 (10 pontos em acess ~7%). A associação entre acessibilidade e renda é mais forte em municípios mais urbanizados.

Agora responda o exercício sobre o conteúdo:

Ao comparar a correlação entre urbanização (%) e renda per capita em municípios, obtém-se Pearson r = 0,62 e Spearman ρ = 0,78, e o diagrama de dispersão mostra alguns municípios com renda muito alta e urbanização média. Qual interpretação é mais adequada?

Você acertou! Parabéns, agora siga para a próxima página

Você errou! Tente novamente.

Spearman é a correlação de Pearson aplicada aos ranks, sendo menos sensível a outliers e capaz de captar relações monotônicas não lineares. Se ρ > r, isso sugere monotonicidade forte, mas possível perda de linearidade por outliers/curvatura; recomenda-se diagnóstico e, se necessário, transformação.

Próximo capitúlo

Probabilidade para Analista do IBGE: fundamentos, variáveis aleatórias e distribuições

Arrow Right Icon
Baixe o app para ganhar Certificação grátis e ouvir os cursos em background, mesmo com a tela desligada.