A regra empírica e outras regras em estatísticas
Em qualquer aula de Estatística, você descobrirá frequentemente que certas "regras" são comumente referidas. Essas regras geralmente têm o objetivo de simplificar sua vida e ajudá-lo a fazer alguns cálculos mais fáceis. Mas nem todas essas regras são iguais. Na verdade, nem todas essas regras são "regras" reais, pois algumas são apenas aproximações e, como tal, podem ter apenas algum uso específico, ou mesmo uso limitado às vezes.
Nos parágrafos a seguir, discutiremos algumas das regras e aproximações das estatísticas comumente usadas. Eles são bastante simples em geral, mas você precisa saber exatamente como usá-los da maneira pretendida.
Regra empírica para a distribuição normal
Esta é de longe uma das "regras" mais amplamente conhecidas nas estatísticas. Continuo escrevendo "regra" com aspas, porque isso não é realmente uma regra, mas uma aproximação. A regra empírica estabelece que se uma variável é normalmente distribuída, aproximadamente 68% da distribuição está dentro de um desvio padrão da média, 95% da distribuição está dentro de dois desvios padrão da média e 99,7% da distribuição está dentro de três desvios padrão da média.
Em primeiro lugar, vejamos por que isso faz sentido. O evento que corresponde aos valores que estão dentro de um desvio padrão da média é \(\left\{ \mu -\sigma \le X\le \mu +\sigma \right\}\), e se normalizarmos (subtrair por \(\mu\) e dividir por \(\sigma\)), obteremos os seguintes eventos equivalentes:
\[\left\{ \mu -\sigma \le X\le \mu +\sigma \right\}=\left\{ -\sigma \le X-\mu \le \sigma \right\}=\left\{ -1\le \frac{X-\mu }{\sigma }\le 1 \right\}\]
Mas, se \(X\) é normalmente distribuído com média \(\mu\) e desvio padrão \(\sigma\), sabemos que a variável \(\frac{X-\mu }{\sigma}\) tem uma distribuição normal padrão (esta é uma distribuição normal com média 0 e desvio padrão 1). Normalmente, a variável \(\frac{X-\mu }{\sigma}\) é escrita como \(Z\), então o que temos é
\[\left\{ \mu -\sigma \le X\le \mu +\sigma \right\}=\left\{ -\sigma \le X-\mu \le \sigma \right\}=\left\{ -1\le \frac{X-\mu }{\sigma }\le 1 \right\}=\left\{ -1\le Z\le 1 \right\}\]onde \(Z\) tem uma distribuição normal padrão. Se usarmos uma calculadora ou um programa de planilha como o Excel, descobrimos que a probabilidade do evento que corresponde aos valores que estão dentro de um desvio padrão da média é
\[Pr \left( \mu -\sigma \le X\le \mu +\sigma \right)=\Pr \left( -1\le \frac{X-\mu }{\sigma }\le 1 \right)=\Pr \left( -1\le Z\le 1 \right)\] \[=\Pr \left( Z\le 1 \right)-\Pr \left( Z\le -1 \right)\approx 0.\text{841345}-0.\text{158655}\approx 0.\text{682689}\]Portanto, a verdadeira porcentagem de valores dentro de um desvio padrão da média é algo como 68,2689492%, que ainda é apenas uma aproximação, mas essa aproximação é muito melhor do que os 68% declarados pela regra empírica.
Da mesma forma, podemos calcular que
\[\Pr \left( \mu -2\sigma \le X\le \mu +2\sigma \right)=\Pr \left( -2\le \frac{X-\mu }{\sigma }\le 2 \right)=\Pr \left( -2\le Z\le 2 \right)\] \[=\Pr \left( Z\le 2 \right)-\Pr \left( Z\le -2 \right)\approx 0.\text{977249868}-0.0\text{2275}0\text{132}\approx 0.\text{9544997}\]Portanto, a verdadeira porcentagem dos valores dentro de dois desvios padrão da média é algo como 95,4499736% (aproximadamente), mas essa aproximação é muito melhor do que os 95% declarados pela regra empírica.
Finalmente, podemos calcular que
\[\Pr \left( \mu -3\sigma \le X\le \mu +3\sigma \right)=\Pr \left( -3\le \frac{X-\mu }{\sigma }\le 3 \right)=\Pr \left( -3\le Z\le 3 \right)\] \[=\Pr \left( Z\le 3 \right)-\Pr \left( Z\le -3 \right)\approx 0.\text{99865}0\text{1}0\text{2}-0.00\text{1349898}\approx 0.\text{9973}00\text{2}\]Portanto, a verdadeira porcentagem dos valores dentro de dois desvios padrão da média é aproximadamente algo como 99,7300204%, mas essa aproximação ainda é mais precisa do que os 99,7% declarados pela regra empírica.
Cuidado: Alguns livros nem mesmo dizem que isso é uma aproximação, e podem dizer que "68% da distribuição está dentro de um desvio padrão da média, 95% da distribuição está dentro de dois desvios padrão da média e 99,7% de a distribuição está dentro de três desvios-padrão da média ", como se fosse um número exato. Isso pode causar confusão porque quando você faz o cálculo no Excel (ou usando as tabelas de probabilidade normais do final do seu livro), você descobrirá que 68%, 95% e 99,7% não são realmente precisos. Certifique-se de usá-lo em seus testes ou dever de casa exatamente como seu instrutor disse para você fazer, mas não se esqueça de que é APENAS UMA APROXIMAÇÃO.
A regra de ouro para o desvio padrão
Esta regra é outra aproximação aproximada usada para estimar o desvio padrão usando o intervalo. A regra diz que o desvio padrão pode ser aproximado com a seguinte fórmula:
\[s\approx \frac{Range}{4}\]Simples. Em alguns casos ou aplicativos, você não terá acesso aos dados propriamente ditos, mas conhecerá o intervalo. Se for esse o caso, tudo o que você precisa fazer é pegar o intervalo e dividir por 4.
Regra de Chebyshev
Esta é uma regra muito boa. Bem, na verdade é uma desigualdade. É algum tipo de regra empírica, mas se aplica a TODAS as distribuições (sim, você ouviu direito), não apenas para a distribuição normal. A regra de Chebyshev fornece um limite inferior para a porcentagem da distribuição que estará dentro k desvios padrão da média. Na verdade, temos que
\[\Pr \left( \mu -k\sigma \le X\le \mu +k\sigma \right)\ge 1-\frac{1}{{{k}^{2}}}\]O que a regra de Chebyshev diz para \(k = 2\)? Diz
\[\Pr \left( \mu -2\sigma \le X\le \mu +2\sigma \right)\ge 1-\frac{1}{{{2}^{2}}}=0.75\]Isto é: Pelo menos 75% da distribuição está dentro de 2 desvios padrão da média . Certo você diz. Isso é bom para quê? Você pode estar pensando que sabia algo muito melhor da Regra Empírica. Sim, você sabia que 95% (ou cerca de 95%) da distribuição está dentro de 2 desvios padrão da média. O que esse 75% fedido tem a dizer aqui. Sim, o 95% está certo, mas funciona SOMENTE para distribuições normais. A afirmação de que pelo menos 75% da distribuição está dentro de 2 desvios padrão da média obtida com o trabalho de regra de Chebyshev para TODAS as distribuições ...... Disse o suficiente.