El uso de la notación en estadística básica - Parte I
Una cosa que confunde a los estudiantes con mucha frecuencia, y diría más de lo necesario, es el uso liberal de la notación matemática que se da en Estadística, incluso en los niveles básicos. Más a menudo de lo que sería deseable, los instructores utilizan la notación de la que los estudiantes no están seguros. Con razón, los profesores ven en el uso de la notación una forma de expresar ideas de una manera precisa, inequívoca y más compacta. Y a medida que se acumulan las ideas, el uso de la notación puede volverse más complicado o lo suficientemente complicado como para dejar a los estudiantes confundidos y mordiendo el polvo.
En los siguientes párrafos intentaremos aclarar el uso de la notación en Estadística de abajo hacia arriba, desde las notaciones en las estadísticas descriptivas más básicas hasta la notación utilizada en las pruebas de hipótesis más sofisticadas.
Notación en estadística descriptiva
Los siguientes símbolos se utilizan comúnmente cuando se trabaja con estadísticas descriptivas. Estos símbolos todavía se utilizan en la mayor parte de su clase de Estadísticas.
\(\bar{X}\): Esta es la media de la muestra, que corresponde al promedio aritmético del valor de una muestra \({{X}_{1}}\), \({{X}_{2}}\),...,\({{X}_{n}}\). Esto es estadístico (porque se construye con información de muestra). En algunos cursos, especialmente en Ciencias Sociales y del Comportamiento, usan \(M\) para referirse a la media muestral.
\({s}^{2}\): esta es la varianza de la muestra, que se calcula como
\[{{s}^{2}}=\frac{1}{n-1}\left( \sum\limits_{i=1}^{n}{X_{i}^{2}}-\frac{1}{n}{{\left( \sum\limits_{i=1}^{n}{{{X}_{i}}} \right)}^{2}} \right)\]
Esto es estadístico (porque se construye con información de muestra). Hay otras versiones de la fórmula anterior, pero todas conducen al mismo valor numérico.
\(s\): Esta es la desviación estándar de la muestra, que se calcula tomando la raíz cuadrada de la varianza de la muestra, o simplemente usando la fórmula anterior, que se calcula a partir de los datos de la muestra \({X}_{1}\), \({{X}_{2}}\),...,\({{X}_{n}}\)
\[s=\sqrt{\frac{1}{n-1}\left( \sum\limits_{i=1}^{n}{X_{i}^{2}}-\frac{1}{n}{{\left( \sum\limits_{i=1}^{n}{{{X}_{i}}} \right)}^{2}} \right)}\]
Esto es estadístico (porque se construye con información de muestra). Hay otras versiones de la fórmula anterior, pero todas conducen al mismo valor numérico.
\(SS\): Esta es la "suma de cuadrados". Esta estadística mide la variación al cuadrado de una variable \(X\) con respecto a la media muestral. Si tiene una muestra \({{X}_{1}}\), __XYZ_D __, ..., __ XYZ_E__, la fórmula utilizada para calcularla es
\[SS=\sum\limits_{i=1}^{n}{{{\left( {{X}_{i}}-\bar{X} \right)}^{2}}}\]A menudo, se utiliza un subíndice para indicar a qué variable nos referimos, si no es claro. Por ejemplo, puede escribir \(S{{S}_{X}}\) para referirse a la suma de cuadrados de la variable \(X\), o puede escribir \(S{{S}_{Y}}\) para referirse a la suma de cuadrados de la variable Y. En Ciencias Sociales y del Comportamiento, normalmente escribirá la suma de cuadrados de \(X\) como \(SS_{XX}\) en lugar de \(SS_{X}\) pero se trata simplemente de cuál es la notación preferida que tiene más sentido. Hay otras expresiones que son equivalentes cuando se trata de expresar la suma de cuadrados. Por ejemplo, aquí tenemos dos formas alternativas de escribir la suma de cuadrados:
\[S{{S}_{XX}}=\sum\limits_{i=1}^{n}{{{\left( {{X}_{i}}-\bar{X} \right)}^{2}}}=\sum\limits_{i=1}^{n}{X_{i}^{2}}-\frac{1}{n}{{\left( \sum\limits_{i=1}^{n}{{{X}_{i}}} \right)}^{2}}\]
Según lo anterior, existe un vínculo claro entre la varianza de la muestra y la suma de cuadrados:
\[{{s}^{2}}=\frac{S{{S}_{XX}}}{n-1}\]
Observe que la notación a veces es excesiva y, a veces, inconsistente. De hecho, es muy común usar un subíndice para la suma de cuadrados (como en \(S{{S}_{XX}}\)) para indicar a qué variable nos referimos (\(X\) en este caso). Aunque, en el caso de la varianza o desviación estándar, el uso de subíndices es menos común, aunque sigue siendo aceptable. Por ejemplo, puede escribir \({{s}_{X}}\) para especificar la desviación estándar muestral de la variable \(X\), o dicho más precisamente, \({{s}_{X}}\) indica la desviación estándar muestral calculada a partir de la muestra \({{X}_{1}}\), \({{X}_{2}}\),...,\({{X}_{n}}\) que proviene de la variable aleatoria B __ .XYZ_
\(m\): mediana de la muestra. El punto (o punto interpolado) que establece el medio de la distribución. No existe un acuerdo universal sobre la referencia a la mediana de la muestra como \(m\), pero es una práctica común.
\({{Q}_{j}}\): Este es el j th cuartil, con \(j=1,2,3,4\). Estos son los puntos (o puntos interpolados) que dividen la distribución en cuartos. Observe que \({{Q}_{2}}\) es la mediana.
\({{P}_{x}}\): Este es el percentil x-ésimo, con \(0\le x\le 100\). Estos son los puntos (o puntos interpolados) de modo que el x por ciento de la distribución esté a la izquierda de esos puntos. Observe que \(m={{Q}_{2}}={{P}_{50}}\).
IQR: Este es el rango intercuartil , y se define como \(IQR={{Q}_{3}}-{{Q}_{1}}\), que es la diferencia entre el tercer y el primer cuartil. Esto se usa comúnmente como una medida de dispersión y para detectar valores atípicos.
Otras estadísticas descriptivas: hay muchas estadísticas descriptivas de uso menos común para las que no hay símbolos universales para usar. Por ejemplo, a veces se usan asimetría, kurtorsis, momentos de orden superior, etc., pero no se usan universalmente símbolos compactos para denotarlos.