Estatística Inferencial
Na noite eleitoral de 30 de janeiro de 2022, quando as eleições legislativas portuguesas ainda tinham apenas 8% dos votos apurados, a RTP já indicava com elevada confiança que o PS obteria maioria absoluta. Como é possível saber o resultado final com menos de um décimo dos votos contados? A resposta está na estatística inferencial: a ciência de retirar conclusões sobre uma população a partir de uma amostra — e quantificar rigorosamente a incerteza dessa inferência.
Conceitos Fundamentais
Parâmetro vs. Estatística
- Parâmetro: característica numérica da população (normalmente desconhecida). Exemplos: média populacional , proporção populacional .
- Estatística: característica numérica calculada a partir da amostra. Exemplos: média amostral , proporção amostral .
Tipos de Amostragem
| Tipo | Descrição | Quando usar | |---|---|---| | Aleatória simples | Cada elemento tem igual probabilidade | População homogénea | | Estratificada | Divide em estratos, amostra de cada | Populações heterogéneas | | Sistemática | Cada k-ésimo elemento | Listas ordenadas | | Por conglomerados | Seleciona grupos completos | Populações dispersas geograficamente |
O erro de amostragem é inevitável — resulta de observar apenas parte da população — e pode ser quantificado. O viés resulta de uma amostra não representativa (por exemplo, fazer inquéritos telefónicos em horário laboral exclui trabalhadores). O viés não se resolve com amostras maiores.
Distribuição Amostral da Média
Se a população tem média e desvio-padrão , a média amostral de amostras de dimensão tem:
Teorema do Limite Central
Para suficientemente grande (regra prática: ), a distribuição de é aproximadamente normal, independentemente da distribuição original:
Este é um dos resultados mais poderosos de toda a probabilidade — permite usar a Normal mesmo quando a população não é normal.
Estimação Pontual
A estimação pontual usa uma única estatística como estimativa do parâmetro.
| Parâmetro | Estimador natural | |---|---| | Média | Média amostral | | Proporção | Proporção amostral | | Variância | Variância amostral corrigida |
A variância amostral usa (correção de Bessel) para ser um estimador não viciado de . Com , o estimador sistematicamente subestima a variância populacional.
Intervalos de Confiança
Um intervalo de confiança com nível de confiança é um intervalo aleatório que contém o parâmetro verdadeiro com probabilidade .
IC para a Média (desvio-padrão populacional conhecido)
Valores críticos mais usados:
| Nível de confiança | | |---|---| | 90% | 1,645 | | 95% | 1,960 | | 99% | 2,576 |
Exemplo: Uma amostra de 100 alunos tem média de notas . O desvio-padrão populacional é . Constrói um IC a 95%.
IC a 95%: .
IC para uma Proporção
Válido quando: e .
Interpretação correta: O IC de 95% não significa que há 95% de probabilidade de estar naquele intervalo — o parâmetro é fixo (mas desconhecido). Significa que 95% dos IC construídos por este método contêm o parâmetro verdadeiro.
Testes de Hipóteses
Um teste de hipóteses é um procedimento formal para decidir entre duas hipóteses:
- H₀ (hipótese nula): a hipótese «por defeito», que se assume verdadeira até prova em contrário.
- H₁ (hipótese alternativa): o que se quer provar.
Tipos de Erro
| | H₀ verdadeira | H₀ falsa | |---|---|---| | Rejeita H₀ | Erro tipo I (α) | Decisão correta | | Não rejeita H₀ | Decisão correta | Erro tipo II (β) |
- Erro tipo I (α): rejeitar H₀ quando é verdadeira (falso positivo).
- Erro tipo II (β): não rejeitar H₀ quando é falsa (falso negativo).
- Potência do teste: — probabilidade de rejeitar H₀ quando H₁ é verdadeira.
O nível de significância é a probabilidade máxima que aceitamos de cometer erro tipo I. Valores comuns: (5%) ou (1%). Reduzir aumenta o risco de erro tipo II.
Procedimento de um Teste de Hipóteses
- Definir H₀ e H₁ com clareza.
- Escolher o nível de significância .
- Calcular a estatística de teste. Para teste à média com conhecido:
- Determinar a região crítica (ou calcular o valor-p).
- Decidir: se está na região crítica (ou valor-p ), rejeita H₀.
Exemplo
Uma empresa afirma que o peso médio das embalagens é 500 g (). Uma amostra de 36 embalagens tem g e sabe-se que g. Testa a hipótese H₀: vs. H₁: , com .
Região crítica bilateral a 5%: . Como , rejeita-se H₀. Há evidência estatística de que o peso médio é diferente de 500 g.
Valor-p (p-value)
O valor-p é a probabilidade de obter um resultado tão ou mais extremo que o observado, assumindo H₀ verdadeira.
- Se valor-p : rejeita H₀.
- Se valor-p : não rejeita H₀ (mas não prova que H₀ é verdadeira!).
As sondagens realizadas antes das eleições são exemplos diretos de estimação por intervalos. Uma sondagem com margem de erro de ±2 pontos percentuais a 95% de confiança usa exatamente a fórmula do IC para proporções. A precisão aumenta com a dimensão da amostra — mas o custo também.
Para o Exame
- Distingue claramente parâmetro (da população, fixo mas desconhecido) de estatística (da amostra, conhecida mas variável).
- A interpretação do IC é frequentemente testada: «95% de confiança» refere-se ao método, não ao intervalo específico calculado.
- Identifica o tipo de erro nas afirmações dos enunciados: rejeitar quando não devia (tipo I) vs. não rejeitar quando devia (tipo II).
- O Teorema do Limite Central justifica o uso da Normal — não esqueças de verificar a condição .