Estatística Inferencial

Na noite eleitoral de 30 de janeiro de 2022, quando as eleições legislativas portuguesas ainda tinham apenas 8% dos votos apurados, a RTP já indicava com elevada confiança que o PS obteria maioria absoluta. Como é possível saber o resultado final com menos de um décimo dos votos contados? A resposta está na estatística inferencial: a ciência de retirar conclusões sobre uma população a partir de uma amostra — e quantificar rigorosamente a incerteza dessa inferência.

Conceitos Fundamentais

Parâmetro vs. Estatística

Parâmetro: característica numérica da população (normalmente desconhecida). Exemplos: média populacional $μ$ , proporção populacional $p$ .
Estatística: característica numérica calculada a partir da amostra. Exemplos: média amostral $\overset{x}{ˉ}$ , proporção amostral $\overset{p}{^}$ .

Tipos de Amostragem

| Tipo | Descrição | Quando usar | |---|---|---| | Aleatória simples | Cada elemento tem igual probabilidade | População homogénea | | Estratificada | Divide em estratos, amostra de cada | Populações heterogéneas | | Sistemática | Cada k-ésimo elemento | Listas ordenadas | | Por conglomerados | Seleciona grupos completos | Populações dispersas geograficamente |

ℹErro de amostragem vs. viés

O erro de amostragem é inevitável — resulta de observar apenas parte da população — e pode ser quantificado. O viés resulta de uma amostra não representativa (por exemplo, fazer inquéritos telefónicos em horário laboral exclui trabalhadores). O viés não se resolve com amostras maiores.

Distribuição Amostral da Média

Se a população tem média $μ$ e desvio-padrão $σ$ , a média amostral $\overset{ˉ}{X}$ de amostras de dimensão $n$ tem:

E (\overset{ˉ}{X}) = μ σ_{\overset{ˉ}{X}} = \frac{σ}{n}

Teorema do Limite Central

Para $n$ suficientemente grande (regra prática: $n \geq 30$ ), a distribuição de $\overset{ˉ}{X}$ é aproximadamente normal, independentemente da distribuição original:

\overset{ˉ}{X} \approx N (μ, \frac{σ ^{2}}{n})

Este é um dos resultados mais poderosos de toda a probabilidade — permite usar a Normal mesmo quando a população não é normal.

Estimação Pontual

A estimação pontual usa uma única estatística como estimativa do parâmetro.

| Parâmetro | Estimador natural | |---|---| | Média $μ$ | Média amostral $\overset{x}{ˉ}$ | | Proporção $p$ | Proporção amostral $\overset{p}{^} = k / n$ | | Variância $σ^{2}$ | Variância amostral corrigida $s^{2} = \frac{1}{n - 1} \sum (x_{i} - \overset{x}{ˉ})^{2}$ |

💡Porque n−1 e não n?

A variância amostral usa $n - 1$ (correção de Bessel) para ser um estimador não viciado de $σ^{2}$ . Com $n$ , o estimador sistematicamente subestima a variância populacional.

Intervalos de Confiança

Um intervalo de confiança com nível de confiança $(1 - α) \times 100%$ é um intervalo aleatório que contém o parâmetro verdadeiro com probabilidade $1 - α$ .

IC para a Média (desvio-padrão populacional conhecido)

\overset{x}{ˉ} \pm z_{α /2} \cdot \frac{σ}{n}

Valores críticos mais usados:

| Nível de confiança | $z_{α /2}$ | |---|---| | 90% | 1,645 | | 95% | 1,960 | | 99% | 2,576 |

Exemplo: Uma amostra de 100 alunos tem média de notas $\overset{x}{ˉ} = 13, 2$ . O desvio-padrão populacional é $σ = 2, 5$ . Constrói um IC a 95%.

13, 2 \pm 1, 96 \cdot \frac{2 , 5}{100} = 13, 2 \pm 1, 96 \times 0, 25 = 13, 2 \pm 0, 49

IC a 95%: $[12, 71; 13, 69]$ .

IC para uma Proporção

\overset{p}{^} \pm z_{α /2} \cdot \frac{p ^ ( 1 - p ^ )}{n}

Válido quando: $n \overset{p}{^} \geq 5$ e $n (1 - \overset{p}{^}) \geq 5$ .

Interpretação correta: O IC de 95% não significa que há 95% de probabilidade de $μ$ estar naquele intervalo — o parâmetro é fixo (mas desconhecido). Significa que 95% dos IC construídos por este método contêm o parâmetro verdadeiro.

Testes de Hipóteses

Um teste de hipóteses é um procedimento formal para decidir entre duas hipóteses:

H₀ (hipótese nula): a hipótese «por defeito», que se assume verdadeira até prova em contrário.
H₁ (hipótese alternativa): o que se quer provar.

Tipos de Erro

| | H₀ verdadeira | H₀ falsa | |---|---|---| | Rejeita H₀ | Erro tipo I (α) | Decisão correta | | Não rejeita H₀ | Decisão correta | Erro tipo II (β) |

Erro tipo I (α): rejeitar H₀ quando é verdadeira (falso positivo).
Erro tipo II (β): não rejeitar H₀ quando é falsa (falso negativo).
Potência do teste: $1 - β$ — probabilidade de rejeitar H₀ quando H₁ é verdadeira.

⚠Nível de significância

O nível de significância $α$ é a probabilidade máxima que aceitamos de cometer erro tipo I. Valores comuns: $α = 0, 05$ (5%) ou $α = 0, 01$ (1%). Reduzir $α$ aumenta o risco de erro tipo II.

Procedimento de um Teste de Hipóteses

Definir H₀ e H₁ com clareza.
Escolher o nível de significância $α$ .
Calcular a estatística de teste. Para teste à média com $σ$ conhecido:

Z = \frac{x ˉ - μ _{0}}{σ / n}

Determinar a região crítica (ou calcular o valor-p).
Decidir: se $Z$ está na região crítica (ou valor-p $< α$ ), rejeita H₀.

Exemplo

Uma empresa afirma que o peso médio das embalagens é 500 g ( $μ_{0} = 500$ ). Uma amostra de 36 embalagens tem $\overset{x}{ˉ} = 496$ g e sabe-se que $σ = 12$ g. Testa a hipótese H₀: $μ = 500$ vs. H₁: $μ \neq = 500$ , com $α = 0, 05$ .

Z = \frac{496 - 500}{12/ 36} = \frac{- 4}{2} = - 2

Região crítica bilateral a 5%: $∣ Z ∣ > 1, 96$ . Como $∣ - 2 ∣ = 2 > 1, 96$ , rejeita-se H₀. Há evidência estatística de que o peso médio é diferente de 500 g.

Valor-p (p-value)

O valor-p é a probabilidade de obter um resultado tão ou mais extremo que o observado, assumindo H₀ verdadeira.

Se valor-p $< α$ : rejeita H₀.
Se valor-p $\geq α$ : não rejeita H₀ (mas não prova que H₀ é verdadeira!).

🔬Sondagens eleitorais em Portugal

As sondagens realizadas antes das eleições são exemplos diretos de estimação por intervalos. Uma sondagem com margem de erro de ±2 pontos percentuais a 95% de confiança usa exatamente a fórmula do IC para proporções. A precisão aumenta com a dimensão da amostra — mas o custo também.

Para o Exame

Distingue claramente parâmetro (da população, fixo mas desconhecido) de estatística (da amostra, conhecida mas variável).
A interpretação do IC é frequentemente testada: «95% de confiança» refere-se ao método, não ao intervalo específico calculado.
Identifica o tipo de erro nas afirmações dos enunciados: rejeitar quando não devia (tipo I) vs. não rejeitar quando devia (tipo II).
O Teorema do Limite Central justifica o uso da Normal — não esqueças de verificar a condição $n \geq 30$ .