El uso de la notación en estadística básica - Parte II
Este es un seguimiento del sección previa , donde se presentaron las notaciones más comunes para la estadística descriptiva. Es crucial comprender cómo se usa la notación, ya que la notación en matemáticas y estadística se usa como atajos , y como tal, si no comprende su significado, pronto se perderá y REALMENTE no comprenderá de qué se está hablando.
En los siguientes párrafos continuaremos con esta serie, intentando aclarar el uso de la notación en la Estadística Inferencial, donde se usa notación más profusa y sofisticada, y en consecuencia se debe prestar atención a lo que viene.
Notación en estadística inferencial
Los siguientes símbolos y notaciones se utilizan comúnmente cuando se trabaja con estadísticas inferenciales. Estos símbolos todavía se utilizan en la mayor parte de su clase de Estadísticas.
· \(\mu\): Este es el símbolo genérico que representa la media de la población. Este es un parámetro (porque es constante y no se construye con información de muestra). A veces, \(\mu\) viene con un subíndice para representar la media poblacional de la variable de la que estamos hablando. Por ejemplo, si vemos \({{\mu }_{X}}\), ese símbolo se refiere a la media poblacional de la variable aleatoria \(X\). En términos generales, si\(f\left( x \right)\) es la variable aleatoria de distribución (densidad) \(X\), la media de la población se calcula con la siguiente expresión:
\[{{\mu }_{X}}=\int\limits_{-\infty }^{\infty }{x\,f\left( x \right)dx}\]
en el caso de una variable aleatoria continua, o
\[{{\mu }_{X}}=\sum\limits_{k}{{{x}_{k}}f\left( {{x}_{k}} \right)}\]
para el caso de una distribución discreta.
Un par de cosas a tener en cuenta: Aunque \(\mu\) es el símbolo genérico para referirse a la media poblacional, hay ciertas distribuciones que habitualmente usan símbolos diferentes. Por ejemplo, si X es una variable aleatoria de Poisson, la tradición es usar \(\lambda\) como símbolo para la media poblacional. Lo importante a tener en cuenta es que es solo una notación, esto es, una CONVENCIÓN.
• \({{\sigma }^{2}}\): Esta es la varianza de la población, que se calcula como
\[{{\sigma }^{2}}=\int\limits_{-\infty }^{\infty }{{{x}^{2}}\,f\left( x \right)dx}-{{\mu }^{2}}=\int\limits_{-\infty }^{\infty }{{{x}^{2}}\,f\left( x \right)dx}-{{\left( \int\limits_{-\infty }^{\infty }{xf\left( x \right)dx} \right)}^{2}}\]
Este es un parámetro de población, porque es un número fijo (no una variable aleatoria) que no se construye a partir de información muestral). Al igual que con la media de la población, es habitual agregar un subíndice para representar la variable subyacente. Es decir, \(\sigma _{X}^{2}\) representa la varianza poblacional de la variable aleatoria X, mientras que \(\sigma _{Y}^{2}\) representa la varianza poblacional de la variable aleatoria Y.
Nuevamente, al igual que en el caso anterior, esta es una NOTACIÓN más común (o atajo, si lo desea) para escribir la varianza de la población. Pero hay casos en los que la tradición es utilizar otra cosa. Por ejemplo, si X tiene una distribución de Poisson, mencionamos antes que la media poblacional se conoce como \(\lambda\), y resulta que al calcular la varianza poblacional, encontramos que también es igual a \(\lambda\). En tal caso, escribiríamos \(\sigma _{X}^{2}=\lambda\). Así que, por favor, no se confunda entre un notación parte de \(\sigma _{X}^{2}=\lambda\) y la parte de cálculo de \(\sigma _{X}^{2}=\lambda\).
• \(\sigma\): Esta es la desviación estándar de la población, que se calcula tomando la raíz cuadrada de la varianza de la población, o simplemente usando la siguiente fórmula,
\[\sigma =\sqrt{\int\limits_{-\infty }^{\infty }{{{x}^{2}}\,f\left( x \right)dx}-{{\left( \int\limits_{-\infty }^{\infty }{xf\left( x \right)dx} \right)}^{2}}}\]
Este es un parámetro, porque es un número fijo que no se construye con información de muestra.
• \({{H}_{0}}\): esta es la notación para el hipótesis nula . En la prueba de hipótesis, la hipótesis nula es la hipótesis de ningún efecto
• \({{H}_{A}}\): esta es la notación para el hipótesis alternativa . En la prueba de hipótesis, la hipótesis alternativa es la hipótesis que se puede probar si los datos de la muestra son lo suficientemente improbables, si la hipótesis nula Ho fuera verdadera
• \(\Theta\): Este es un símbolo de uso menos común y representa el conjunto de todos los valores posibles para el parámetro de población. Por ejemplo, si X es una variable aleatoria distribuida normalmente, con una varianza poblacional de \({{\sigma }^{2}}=1\) y una media poblacional desconocida \(\mu\), el conjunto de todos los valores posibles que puede tomar \(\mu\) es la línea real completa. Entonces, en otras palabras, tendríamos en ese caso que \(\Theta =\left( -\infty ,\infty \right)\).
• \({{\Theta }_{0}}\): En el contexto del símbolo anterior, este símbolo representa los posibles valores tomados por un parámetro de población como se indica en la hipótesis nula de una prueba de hipótesis. Por ejemplo, suponga que X es una variable aleatoria distribuida normalmente, con una varianza poblacional de \({{\sigma }^{2}}=1\) y una media poblacional desconocida, y estamos interesados en probar las siguientes hipótesis nulas y alternativas:
\[\begin{align} & {{H}_{0}}:\mu =0 \\ & {{H}_{A}}:\mu \ne 0 \\ \end{align}\]
En ese caso, tendríamos que \({{\Theta }_{0}}=\left\{ 0 \right\}\) .
• \({{\Theta }_{A}}\): Siguiendo la línea de los símbolos anteriores, este símbolo representa los posibles valores tomados por un parámetro de población como se indica en la hipótesis alternativa de una prueba de hipótesis. Por ejemplo, suponga que X es una variable aleatoria distribuida normalmente, con una varianza poblacional de \({{\sigma }^{2}}=1\) y una media poblacional desconocida, y estamos interesados en probar las siguientes hipótesis nulas y alternativas:
\[\begin{align} & {{H}_{0}}:\mu =0 \\ & {{H}_{A}}:\mu \ne 0 \\ \end{align}\]
En ese caso, tendríamos que \({{\Theta }_{A}}=\left( -\infty ,0 \right)\cup \left( 0,\infty \right)\) . Observe que, por definición, necesitamos tener ese \(\Theta ={{\Theta }_{0}}\cup {{\Theta }_{A}}\).
• \(\rho\): Corresponde a la correlación poblacional entre las variables X e Y. Para ser más explícitos sobre las variables involucradas, la notación se puede escribir como \(\rho \left( X,Y \right)\) o incluso como \({{\rho }_{X,Y}}\).
• \(\pi\): Aunque no es universal, este símbolo se usa para representar una proporción de población. En ese sentido, \({{\pi }_{1}}\) representará la proporción de población (para alguna variable categórica) en la población 1, etc. A veces, se usa un \(p\) simple para representar una proporción de población, pero creo que es una mala idea, aunque, más o menos, \(p\) es la notación más utilizada para representar una proporción de población.
• \(\sim\): El símbolo "tilde" se utiliza para representar que una determinada variable aleatoria tiene una distribución específica. Por ejemplo, si vemos: \(X\tilde{\ }Poisson\left( \lambda \right)\), lo interpretamos como: "X es una variable aleatoria que tiene una distribución de Poisson con media \(\lambda\)".