O Uso da Notação em Estatística Básica - Parte I
Uma coisa que confunde os alunos com frequência, e eu diria mais do que o necessário, é o uso liberal da notação matemática que ocorre na Estatística, mesmo nos níveis básicos. Mais frequentemente do que seria desejado, os instrutores usam notações sobre as quais os alunos não têm certeza. Com razão, os professores veem no uso da notação uma forma de expressar ideias de forma precisa, inequívoca, mais compacta. E, à medida que as ideias se acumulam, o uso da notação pode se tornar mais complicado, ou complicado o suficiente para deixar os alunos confusos e mordendo a poeira.
Nos parágrafos a seguir, tentaremos esclarecer o uso da notação em Estatística de baixo para cima, desde as notações na estatística descritiva mais básica, até a notação usada em testes de hipótese mais sofisticados.
Notação em Estatísticas Descritivas
Os símbolos a seguir são comumente usados ao trabalhar com estatísticas descritivas. Esses símbolos ainda são usados na maioria das aulas de Estatística.
\(\bar{X}\): Esta é a média da amostra, que corresponde à média aritmética do valor de uma amostra \({{X}_{1}}\), __XYZ_C __, ..., __ XYZ_D__. Esta é uma estatística (porque é construída com informações de amostra). Em alguns cursos, especialmente em Ciências Sociais e Comportamentais, eles usam \(M\) para se referir à média da amostra.
\({s}^{2}\): esta é a variação da amostra, que é calculada como
\[{{s}^{2}}=\frac{1}{n-1}\left( \sum\limits_{i=1}^{n}{X_{i}^{2}}-\frac{1}{n}{{\left( \sum\limits_{i=1}^{n}{{{X}_{i}}} \right)}^{2}} \right)\]
Esta é uma estatística (porque é construída com informações de amostra). Existem outras versões da fórmula acima, mas todas levam ao mesmo valor numérico.
\(s\): este é o desvio padrão da amostra, que é calculado tirando a raiz quadrada da variância da amostra ou simplesmente usando a fórmula acima, que é calculada a partir dos dados da amostra \({X}_{1}\), __XYZ_C __, ..., __ XYZ_D__
\[s=\sqrt{\frac{1}{n-1}\left( \sum\limits_{i=1}^{n}{X_{i}^{2}}-\frac{1}{n}{{\left( \sum\limits_{i=1}^{n}{{{X}_{i}}} \right)}^{2}} \right)}\]
Esta é uma estatística (porque é construída com informações de amostra). Existem outras versões da fórmula acima, mas todas levam ao mesmo valor numérico.
\(SS\): Esta é a "soma dos quadrados". Esta estatística mede a variação quadrática de uma variável \(X\) em relação à média da amostra. Se você tiver uma amostra \({{X}_{1}}\), __XYZ_D __, ..., __ XYZ_E__, a fórmula usada para calculá-lo é
\[SS=\sum\limits_{i=1}^{n}{{{\left( {{X}_{i}}-\bar{X} \right)}^{2}}}\]Freqüentemente, um subscrito é usado para indicar a qual variável nos referimos, se não estiver claro. Por exemplo, você pode escrever \(S{{S}_{X}}\) para se referir à soma dos quadrados da variável \(X\), ou pode escrever \(S{{S}_{Y}}\) para se referir à soma dos quadrados da variável Y. Em Ciências Sociais e Comportamentais, você normalmente escreverá a soma dos quadrados de \(X\) como \(SS_{XX}\) em vez de \(SS_{X}\), mas é tudo simplesmente sobre qual é a notação preferida que faz mais sentido. Existem outras expressões que são equivalentes quando se trata de expressar a soma dos quadrados. Por exemplo, aqui temos duas maneiras alternativas de escrever a soma dos quadrados:
\[S{{S}_{XX}}=\sum\limits_{i=1}^{n}{{{\left( {{X}_{i}}-\bar{X} \right)}^{2}}}=\sum\limits_{i=1}^{n}{X_{i}^{2}}-\frac{1}{n}{{\left( \sum\limits_{i=1}^{n}{{{X}_{i}}} \right)}^{2}}\]
Com base no acima exposto, há uma ligação clara entre a variância da amostra e a soma dos quadrados:
\[{{s}^{2}}=\frac{S{{S}_{XX}}}{n-1}\]
Observe que a notação às vezes é excessiva e às vezes é inconsistente. Na verdade, é muito comum usar um subscrito para a soma dos quadrados (como em \(S{{S}_{XX}}\)) para indicar a qual variável estamos nos referindo (\(X\) neste caso). Embora, no caso da variância ou desvio padrão, o uso de subscritos seja menos comum, embora ainda seja aceitável. Por exemplo, você pode escrever \({{s}_{X}}\) para especificar o desvio padrão da amostra da variável \(X\) ou, mais precisamente, \({{s}_{X}}\) indica o desvio padrão da amostra calculado a partir da amostra \({{X}_{1}}\), __XYZ_E __, ..., __ XYZ_F__ que vem da variável aleatória \(X\).
\(m\): Mediana da amostra. O ponto (ou ponto interpolado) que define o meio da distribuição. Não há um acordo universal sobre a referência à mediana da amostra como \(m\), mas é uma prática comum.
\({{Q}_{j}}\): Este é o j º quartil, com \(j=1,2,3,4\). Esses são os pontos (ou pontos interpolados) que dividem a distribuição em quartos. Observe que \({{Q}_{2}}\) é a mediana.
\({{P}_{x}}\): Este é o percentil x, com \(0\le x\le 100\). Esses são os pontos (ou pontos interpolados) de forma que x por cento da distribuição esteja à esquerda desses pontos. Observe que \(m={{Q}_{2}}={{P}_{50}}\).
IQR: Isto é o intervalo interquartil , e é definido como \(IQR={{Q}_{3}}-{{Q}_{1}}\), que é a diferença entre o terceiro e o primeiro quartil. Isso é comumente usado como uma medida de dispersão e para detectar outliers.
Outras estatísticas descritivas: Existem muitas estatísticas descritivas menos comumente usadas para as quais não há símbolos universais para usar. Por exemplo, skewness, kurtorsis, momentos de ordem superior, etc, às vezes são usados, mas não símbolos compactos são universalmente usados para denotá-los.