Inferência estatística orientada à decisão: precisão, significância e risco
Em análises do IBGE e em avaliações de políticas públicas, inferência estatística serve para transformar evidência amostral em decisão sob incerteza. Duas dimensões precisam ser separadas e reportadas juntas: precisão (tamanho do erro/intervalo) e significância (evidência contra uma hipótese nula). Uma estimativa pode ser estatisticamente significativa e pouco útil (efeito pequeno), ou não significativa e ainda assim relevante (intervalo amplo por baixa precisão).
- Precisão: controlada por tamanho amostral, variabilidade, desenho amostral e qualidade de mensuração; é comunicada por erro padrão e intervalos de confiança.
- Significância: controlada por nível de significância (α), poder (1−β) e tamanho de efeito; é comunicada por p-valor e decisão de rejeição/não rejeição.
- Risco decisório: erro tipo I (falso positivo) e tipo II (falso negativo) têm custos assimétricos em políticas públicas (ex.: expandir programa ineficaz vs. não expandir programa eficaz).
Estimadores: viés, consistência, eficiência e erro padrão
O que é um estimador e como avaliá-lo
Um estimador é uma regra que transforma dados amostrais em um número (estimativa) para um parâmetro populacional (média, proporção, variância, diferença de médias etc.). Para escolher e defender um estimador, use critérios técnicos:
- Viés: diferença entre o valor esperado do estimador e o parâmetro. Idealmente, viés próximo de zero. Em políticas públicas, viés sistemático pode induzir alocação errada de recursos.
- Consistência: à medida que o tamanho amostral cresce, o estimador se aproxima do parâmetro. Importante quando se comparam séries e se planeja ampliar amostras.
- Eficiência: entre estimadores não viesados, o mais eficiente tem menor variância (maior precisão). Em termos práticos, significa intervalos mais estreitos com o mesmo n.
- Erro padrão (EP): desvio padrão do estimador; mede a variabilidade amostral esperada. EP é a base de intervalos e testes.
Implicações práticas do Teorema Central do Limite (TCL/CLT)
O TCL justifica o uso de aproximações normais para muitos estimadores (especialmente médias e somas) quando n é “suficientemente grande”. Implicações práticas:
- Intervalos e testes para médias e proporções frequentemente usam normal/t quando n é moderado/grande.
- Robustez: mesmo com distribuição não normal, a média amostral tende a ser aproximadamente normal para n grande; porém, caudas pesadas e outliers podem exigir métodos robustos ou não paramétricos.
- Decisão: com n grande, diferenças pequenas podem se tornar “significativas”; por isso, reporte também tamanho de efeito e relevância substantiva.
Passo a passo prático: como reportar uma estimativa com qualidade inferencial
- 1) Defina o parâmetro (ex.: proporção de domicílios com insegurança alimentar).
- 2) Calcule a estimativa pontual (ex.: p̂).
- 3) Estime o erro padrão (EP) com fórmula apropriada (ou método do desenho amostral, quando aplicável).
- 4) Construa intervalo de confiança (IC) e interprete em termos de decisão.
- 5) Se houver hipótese de política (meta/limiar), realize teste e reporte p-valor, α e poder (quando possível).
- 6) Documente suposições (normalidade, independência, variâncias iguais, tamanho amostral) e sensibilidade (paramétrico vs. não paramétrico).
Intervalos de confiança (IC): média, proporção, diferenças e variância
IC para média com variância populacional conhecida (z)
Quando σ é conhecida (situação rara em prática), para amostra aleatória simples:
IC(μ) = x̄ ± z_{α/2} * (σ/√n)Interpretação para políticas públicas: “Com 95% de confiança, a renda média está entre A e B”. Use o IC para verificar se metas (ex.: valor mínimo) são plausíveis.
Continue em nosso aplicativo
Você poderá ouvir o audiobook com a tela desligada, ganhar gratuitamente o certificado deste curso e ainda ter acesso a outros 5.000 cursos online gratuitos.
ou continue lendo abaixo...Baixar o aplicativo
IC para média com variância desconhecida (t)
Mais comum: σ desconhecida, usa-se s e distribuição t com n−1 graus de liberdade:
IC(μ) = x̄ ± t_{α/2, n-1} * (s/√n)Passo a passo:
- 1) Calcule x̄ e s.
- 2) Escolha nível de confiança (ex.: 95%).
- 3) Obtenha t crítico com gl = n−1.
- 4) Calcule margem de erro = t * s/√n.
- 5) Reporte IC e margem de erro.
IC para proporção (aproximação normal)
Para proporção p, com p̂ = x/n e condições de aproximação (np̂ e n(1−p̂) suficientemente grandes):
IC(p) = p̂ ± z_{α/2} * √( p̂(1-p̂)/n )Nota prática: quando p̂ é muito próximo de 0 ou 1, ou n pequeno, prefira métodos alternativos (ex.: Wilson). Se o curso exigir apenas o IC normal, explicite a limitação.
IC para diferença de médias (dois grupos independentes)
Objetivo: estimar Δ = μ1 − μ2 (ex.: diferença de renda média entre dois territórios ou grupos).
Variâncias conhecidas:
IC(Δ) = (x̄1 - x̄2) ± z_{α/2} * √( σ1²/n1 + σ2²/n2 )Variâncias desconhecidas e não necessariamente iguais (Welch):
IC(Δ) = (x̄1 - x̄2) ± t_{α/2, gl} * √( s1²/n1 + s2²/n2 )com gl aproximado (Welch-Satterthwaite). Prática recomendada: usar Welch por padrão quando não houver evidência forte de variâncias iguais.
IC para diferença de médias (amostras pareadas)
Quando as observações são emparelhadas (antes/depois no mesmo município; mesma unidade em dois momentos), trabalhe com as diferenças di = xi,antes − xi,depois e estime μd:
IC(μd) = d̄ ± t_{α/2, n-1} * (sd/√n)Implicação: pareamento reduz variabilidade e aumenta precisão, útil em avaliações de impacto com dados longitudinais.
IC para diferença de proporções (dois grupos independentes)
Para Δ = p1 − p2:
IC(Δ) = (p̂1 - p̂2) ± z_{α/2} * √( p̂1(1-p̂1)/n1 + p̂2(1-p̂2)/n2 )Uso típico: comparar cobertura de serviço (ex.: acesso à água) entre regiões.
IC para variância (normalidade) e desvio padrão
Se a população é aproximadamente normal, o IC para a variância σ² usa qui-quadrado:
IC(σ²) = [ (n-1)s² / χ²_{1-α/2, n-1} , (n-1)s² / χ²_{α/2, n-1} ]Para IC do desvio padrão, tire a raiz quadrada dos limites. Prática: sensível a não normalidade; se houver assimetria forte/outliers, considere métodos robustos ou bootstrap (se permitido no escopo do projeto).
Tamanho amostral e margem de erro: planejamento orientado à meta
Para planejar precisão, defina margem de erro E e nível de confiança. Exemplos clássicos (amostragem simples):
- Média (σ aproximada por estudos anteriores): n ≈ (z_{α/2} * σ / E)²
- Proporção: n ≈ z_{α/2}² * p(1−p) / E² (p=0,5 maximiza n quando p é desconhecido)
Interpretação: planejamento por E evita relatórios com ICs tão largos que inviabilizam decisão.
Testes de hipóteses: estrutura, p-valor, poder e interpretação
Estrutura de um teste
- H0: hipótese nula (status quo; ausência de efeito; parâmetro igual a um valor de referência).
- H1: hipótese alternativa (efeito; diferença; parâmetro maior/menor).
- Estatística de teste: função dos dados com distribuição conhecida sob H0.
- Regra de decisão: rejeitar H0 se p-valor ≤ α (ou se estatística cair na região crítica).
p-valor: o que é e o que não é
Definição: p-valor é a probabilidade, sob H0, de observar um resultado tão extremo quanto o observado (ou mais). Não é a probabilidade de H0 ser verdadeira, nem mede magnitude do efeito.
Leitura para políticas públicas:
- p pequeno: evidência contra H0, mas avalie se o efeito é relevante e se há viés/erro de mensuração.
- p grande: não há evidência suficiente contra H0; pode ser falta de poder (amostra pequena) e não “prova de ausência de efeito”.
Erros tipo I e II e poder do teste
- Tipo I (α): rejeitar H0 quando H0 é verdadeira. Ex.: declarar melhora de indicador sem melhora real.
- Tipo II (β): não rejeitar H0 quando H1 é verdadeira. Ex.: não detectar piora real e atrasar intervenção.
- Poder (1−β): probabilidade de detectar um efeito real de tamanho especificado. Aumenta com n, com menor variabilidade e com efeitos maiores.
Passo a passo prático para pensar poder:
- 1) Defina o menor efeito de interesse (ex.: redução mínima de 2 p.p. em evasão).
- 2) Defina α (ex.: 5%) e poder desejado (ex.: 80%).
- 3) Use aproximações de tamanho amostral (ou software) para obter n.
- 4) Se n não for viável, ajuste desenho (pareamento, estratificação) ou aceite maior incerteza explicitamente.
Múltiplas comparações: controle de falsos positivos
Quando se testam muitas hipóteses (ex.: dezenas de indicadores por UF), cresce a chance de falsos positivos. Estratégias:
- Bonferroni: usar α/m para m testes (conservador).
- Holm: ajuste sequencial menos conservador.
- FDR (Benjamini-Hochberg): controla taxa de descobertas falsas, útil em painéis com muitos indicadores.
Interpretação: em monitoramento de políticas, prefira controlar FDR quando o objetivo é triagem (priorizar investigações), e Bonferroni/Holm quando decisões são custosas e irreversíveis.
Testes paramétricos: z, t, qui-quadrado e ANOVA
Teste z para média (σ conhecida) e para proporção
Média (σ conhecida):
z = (x̄ - μ0) / (σ/√n)Proporção (H0: p=p0):
z = (p̂ - p0) / √( p0(1-p0)/n )Passo a passo:
- 1) Defina H0 e H1 (uni/bicaudal).
- 2) Calcule estatística z.
- 3) Obtenha p-valor.
- 4) Compare com α e decida.
- 5) Reporte também IC e tamanho do efeito (diferença absoluta).
Teste t para média e diferença de médias
Uma amostra (H0: μ=μ0):
t = (x̄ - μ0) / (s/√n), gl=n-1Duas amostras independentes (Welch):
t = (x̄1 - x̄2) / √( s1²/n1 + s2²/n2 )Pareado (sobre diferenças):
t = d̄ / (sd/√n), gl=n-1Checagens práticas:
- Outliers e assimetria forte: considere transformação ou teste não paramétrico.
- Independência: essencial em amostras independentes; em dados por domicílio/município pode haver clusterização (ajustar EP quando aplicável).
Qui-quadrado: aderência e independência
Aderência (goodness-of-fit): compara frequências observadas com esperadas sob uma distribuição/categoria alvo.
χ² = Σ (O_i - E_i)² / E_i, gl = k-1 - (parâmetros estimados)Independência (tabela r×c): testa associação entre duas variáveis categóricas (ex.: situação de trabalho × sexo).
χ² = Σ (O_ij - E_ij)² / E_ij, gl = (r-1)(c-1)Passo a passo (independência):
- 1) Monte tabela de contingência.
- 2) Calcule esperadas: E_ij = (total linha i * total coluna j) / total geral.
- 3) Calcule χ² e gl.
- 4) p-valor e decisão.
- 5) Reporte medida de efeito (ex.: V de Cramér) para relevância.
Regra prática: se muitas células têm E_ij < 5, o teste pode ser inadequado; agregue categorias ou use alternativas (ex.: exato de Fisher em 2×2, quando aplicável).
ANOVA: comparação de 3+ médias
ANOVA testa H0: μ1=μ2=...=μk. Usa decomposição de variância:
F = MQ_entre / MQ_dentroSuposições: independência, normalidade dos resíduos (aprox.) e homocedasticidade (variâncias semelhantes). Prática: ANOVA detecta se há alguma diferença, mas não diz onde; exige pós-testes.
Múltiplas comparações pós-ANOVA:
- Tukey: comparações pareadas controlando erro familiar.
- Bonferroni/Holm: alternativas gerais.
Interpretação para políticas: “Há evidência de diferença entre médias de k regiões”; em seguida, identificar quais pares diferem e se a diferença é material (efeito e IC).
Testes não paramétricos: quando usar e como interpretar
Testes não paramétricos são úteis quando suposições paramétricas são frágeis (assimetria, outliers, escalas ordinais) ou quando o foco é mediana/distribuição. Em geral, testam diferenças de localização/distribuição, não necessariamente de médias.
Mann-Whitney (Wilcoxon rank-sum): dois grupos independentes
Alternativa ao t de duas amostras quando dados são ordinais ou não normais. Interpretação comum: tendência de valores de um grupo serem maiores que do outro.
Passo a passo:
- 1) Combine as observações e atribua ranks.
- 2) Some ranks por grupo.
- 3) Calcule estatística U (ou W) e p-valor (exato ou aproximado).
- 4) Reporte também medida de efeito (ex.: diferença de medianas ou probabilidade de superioridade).
Wilcoxon signed-rank: amostras pareadas
Alternativa ao t pareado quando diferenças não são normais. Trabalha com ranks das diferenças em módulo e sinais.
Kruskal-Wallis: 3+ grupos independentes
Alternativa não paramétrica à ANOVA. Se rejeitar H0, faça comparações múltiplas (ex.: Dunn com ajuste).
Tradução para linguagem de políticas públicas: como escrever achados inferenciais
Modelo de redação com precisão e significância
- Estimativa + IC: “A proporção estimada de domicílios com acesso à coleta de lixo é 82,1% (IC95%: 80,4%–83,8%).”
- Comparação + efeito: “A diferença entre Região A e B é 3,2 p.p. (IC95%: 0,8–5,6 p.p.).”
- Teste + decisão: “Teste z bicaudal rejeita H0 de igualdade (p=0,01; α=0,05).”
- Relevância: “Apesar de estatisticamente significativa, a diferença é pequena frente à meta operacional de 10 p.p.”
- Risco: “Como decisão tem alto custo, adotou-se ajuste para múltiplas comparações (Holm).”
Checklist de interpretação responsável
- O IC exclui valores de interesse (meta/limiar)?
- O tamanho do efeito é material (impacto prático)?
- Há risco de confundimento, viés de seleção ou mensuração?
- O teste tem poder suficiente para o efeito mínimo relevante?
- Foram feitas muitas comparações? Houve ajuste?
Bateria de questões (com gabarito comentado e justificativas técnicas)
Questões 1–6 (estimação e intervalos de confiança)
Q1. Uma amostra de n=64 domicílios tem renda média x̄=2.100 e desvio padrão s=800. Construa IC95% para μ (assuma aproximação t). Interprete.
Q2. Em n=400 entrevistas, 220 responderam “sim” para acesso a internet. Construa IC95% para p. Verifique condição de aproximação normal.
Q3. Dois grupos independentes: Grupo 1 (n1=50, x̄1=30, s1=10) e Grupo 2 (n2=40, x̄2=26, s2=12). Construa IC95% para μ1−μ2 usando Welch (não assuma variâncias iguais).
Q4. Estudo pareado antes/depois com n=25 municípios. Diferenças (antes−depois) têm média d̄=1,8 e sd=4,0. Construa IC95% para μd.
Q5. Para uma variável aproximadamente normal, n=20 e s²=9. Construa IC95% para σ².
Q6. Planejamento: deseja-se margem de erro E=2 p.p. para estimar uma proporção com 95% de confiança e p desconhecido. Aproximar n.
Gabarito comentado 1–6
A1. gl=63, t≈2,00 (aprox.). EP = 800/√64 = 100. Margem ≈ 2,00*100=200. IC95%: [1.900, 2.300]. Justificativa: σ desconhecida → t; precisão (±200) é a informação central para decisão.
A2. p̂=220/400=0,55. EP=√(0,55*0,45/400)=√(0,2475/400)=√0,00061875≈0,0249. Margem=1,96*0,0249≈0,0488. IC95%: [0,501, 0,599]. Condição: np̂=220 e n(1−p̂)=180, ambas > 10. Justificativa: aproximação normal adequada; reporte em p.p.
A3. Diferença = 4. EP=√(10²/50 + 12²/40)=√(100/50 + 144/40)=√(2 + 3,6)=√5,6≈2,366. t crítico ~2 (gl aproximado). Margem ≈ 4,73. IC95% ≈ [−0,73, 8,73]. Justificativa: Welch por variâncias possivelmente diferentes; IC inclui 0 → evidência inconclusiva com esta precisão.
A4. EP=4/√25=0,8. t crítico gl=24 ≈2,064. Margem≈1,651. IC95%: [0,149, 3,451]. Justificativa: pareado aumenta precisão; IC sugere redução média positiva (antes−depois > 0).
A5. gl=19. χ²_{0,975,19}≈32,85 e χ²_{0,025,19}≈8,91 (valores aproximados). IC(σ²)=[(19*9)/32,85, (19*9)/8,91]=[171/32,85, 171/8,91]≈[5,21, 19,19]. Justificativa: IC assimétrico; depende de normalidade.
A6. p=0,5. n≈(1,96²*0,25)/(0,02²)=(3,8416*0,25)/0,0004=0,9604/0,0004=2.401. Justificativa: p=0,5 maximiza variância; planejamento conservador.
Questões 7–12 (testes paramétricos)
Q7. Teste H0: μ=100 vs H1: μ≠100. Amostra: n=36, x̄=104, s=12. Use α=5%. Decida e reporte p-valor aproximado.
Q8. Teste de proporção: H0: p=0,60 vs H1: p>0,60. Em n=200, p̂=0,66. Use α=5%. Calcule z e decida.
Q9. Dois grupos independentes: (n1=30, x̄1=52, s1=8) e (n2=35, x̄2=48, s2=10). Teste H0: μ1=μ2 vs H1: μ1≠μ2 com Welch, α=5%.
Q10. Qui-quadrado de independência: em uma tabela 2×2, χ² observado=6,4. Determine p-valor aproximado e decisão a 5%.
Q11. ANOVA com k=4 grupos, N=80. Estatística F=3,2 com gl1=3 e gl2=76. A 5%, rejeita H0? (use referência: F crítico ~2,73).
Q12. Em 20 indicadores testados a α=5% sem ajuste, qual a probabilidade aproximada de pelo menos um falso positivo se todas as H0 forem verdadeiras? (assuma independência).
Gabarito comentado 7–12
A7. t=(104−100)/(12/√36)=4/(12/6)=4/2=2,0; gl=35. p-valor bicaudal ≈0,053 (aprox.). Decisão: não rejeita a 5% (limítrofe). Justificativa: evidência moderada; reporte IC e discuta poder.
A8. z=(0,66−0,60)/√(0,60*0,40/200)=0,06/√(0,24/200)=0,06/√0,0012=0,06/0,0346≈1,73. p-valor unilateral ≈0,042. Rejeita H0 a 5%. Justificativa: teste unilateral coerente com pergunta “melhorou acima de 60%”.
A9. Diferença=4. EP=√(8²/30 + 10²/35)=√(64/30 + 100/35)=√(2,133 + 2,857)=√4,99≈2,235. t≈1,79. p bicaudal ≈0,08. Não rejeita a 5%. Justificativa: efeito existe, mas incerteza ainda alta; decisão pode exigir mais n.
A10. gl=1. Para χ²=6,4, p≈0,011. Rejeita H0 a 5%. Justificativa: associação estatisticamente significativa; reporte tamanho de efeito (ex.: razão de chances ou φ).
A11. Como F=3,2 > 2,73, rejeita H0 a 5%. Justificativa: há diferença entre pelo menos duas médias; requer pós-testes com ajuste.
A12. P(≥1 FP)=1−(1−0,05)^{20}=1−0,95^{20}≈1−0,358=0,642. Justificativa: risco alto de falso positivo; justifica ajuste para múltiplas comparações.
Questões 13–18 (não paramétricos e escolha do teste)
Q13. Você compara satisfação (escala 1–5) entre dois grupos independentes. Distribuição é assimétrica e ordinal. Qual teste é mais adequado: t de duas amostras ou Mann-Whitney? Justifique.
Q14. Antes/depois em mesmos indivíduos, diferenças têm outliers fortes. Qual teste: t pareado ou Wilcoxon signed-rank? Justifique.
Q15. Três regiões com amostras independentes e variável de tempo de espera com cauda longa. Qual teste global: ANOVA ou Kruskal-Wallis? Justifique.
Q16. Em uma tabela 3×4, você testa independência e encontra p<0,001. O que ainda precisa reportar para relevância prática?
Q17. Em um estudo, p=0,20 em um teste com n pequeno. Liste duas razões técnicas para não concluir “não há efeito”.
Q18. Você realizou 10 comparações pareadas pós-ANOVA. Cite um método de ajuste e explique o impacto na decisão.
Gabarito comentado 13–18
A13. Mann-Whitney. Justificativa: escala ordinal e assimetria violam suposições do t; Mann-Whitney compara distribuições/posição via ranks.
A14. Wilcoxon signed-rank. Justificativa: outliers tornam média e t sensíveis; Wilcoxon usa ranks das diferenças e é mais robusto.
A15. Kruskal-Wallis. Justificativa: cauda longa e possível heterocedasticidade; teste por ranks é alternativa à ANOVA.
A16. Medida de efeito (ex.: V de Cramér) e análise de quais células contribuem (resíduos padronizados), além de ICs quando possível. Justificativa: com n grande, p pode ser muito pequeno mesmo para associações fracas.
A17. (i) Baixo poder (n pequeno) pode gerar erro tipo II; (ii) IC pode ser amplo e incluir efeitos relevantes; adicionalmente, violação de suposições ou alta variabilidade aumentam incerteza. Justificativa: p alto não prova H0.
A18. Holm ou Bonferroni (ou Tukey, dependendo do contexto). Justificativa: reduz falsos positivos; torna critério mais rigoroso, podendo transformar resultados “significativos” em “não significativos” após ajuste.