Tutoriais de estatística: o guia definitivo para percentis - todos os truques do livro
Este é um bom tópico para um tutorial porque o conceito de percentil tende a ser confuso, devido ao fato de que informações um tanto confusas às vezes são fornecidas aos alunos, e há muitas convenções em torno que às vezes podem ser enganosas e até mesmo totalmente erradas. Nos parágrafos a seguir, iremos delinear o conceito de percentil de forma precisa, para que você saiba exatamente do que estamos falando.
Distribuição cumulativa
Em primeiro lugar, é preciso ter clareza sobre a definição de percentil, que está associada ao conceito de distribuição cumulativa. Para uma variável aleatória X, a função de distribuição cumulativa associada é definida como
\[{{F}_{X}}\left( x \right)=\Pr \left( X\le x \right)\]Isto é, para um determinado valor x , a função de distribuição cumulativa associada é a probabilidade de que a variável aleatória seja menor ou igual a x . Observe que o símbolo usado x como o argumento é um argumento de função genérica. Se escrevermos \({{F}_{X}}\left( y \right)\), queremos dizer a distribuição cumulativa no valor de y (que corresponde à probabilidade de que a variável aleatória seja menor ou igual a y ), ou se escrevermos \({{F}_{X}}\left( 4 \right)\), queremos dizer a distribuição cumulativa em 4 (que corresponde à probabilidade de que a variável aleatória seja menor ou igual a 4).
Com tal definição, fica claro que \({{F}_{X}}\) é uma função que assume valores de 0 a 1 (uma vez que vem de uma probabilidade) e não é decrescente (isto é, aumenta ou permanece constante, mas nunca diminui) , mas o que é menos óbvio, e que pode ser provado a partir dos axiomas de probabilidade, qualquer função de distribuição cumulativa \({{F}_{X}}\) é muito bem comportada, pois é contínua à direita (o que significa grosso modo que a função é contínua ou pode potencialmente ter "pula" .... é mais complicado do que isso, mas por enquanto você pode pensar assim). Em geral, as variáveis aleatórias que assumem um intervalo contínuo de valores terão uma função cumulativa contínua \({{F}_{X}}\), enquanto as variáveis aleatórias que assumem um intervalo discreto de valores terão "saltos" no gráfico de seus \({{F}_{X}}\) associados.
O que é um percentil?
Agora podemos definir um percentil. Para \(\alpha \in \left[ 0,1 \right]\), definimos um percentil \(\alpha\) como \({{P}_{\alpha }}\), de modo que
\[\Pr \left( X\le {{P}_{\alpha }} \right)=\alpha\]Na linguagem humana, um percentil \(\alpha\) é um ponto para que a probabilidade de que a variável aleatória seja menor ou igual a esse ponto é exatamente \(\alpha\). Por exemplo, um percentil 0,10 é um ponto na distribuição de forma que a probabilidade de que a variável aleatória seja menor ou igual a esse ponto seja exatamente 0,10. Normalmente, em vez de pedir, por exemplo, o percentil 0,10, será solicitado o percentil 10%, ou o 10º percentil. Essas são notações simples que você deve conhecer.
Um percentil \({{P}_{\alpha }}\) para uma variável aleatória X é bem definido quando a função de distribuição cumulativa \({{F}_{X}}\left( x \right)\) é contínua. Se \({{F}_{X}}\left( x \right)\) tem "saltos" em seu gráfico, então pode ser um pouco mais difícil definir alguns valores percentuais. É por isso que os percentis são bem definidos para variáveis aleatórias contínuas (como distribuição normal, distribuição exponencial, etc.), mas pode ser difícil para variáveis discretas (como Poisson, Binomial, etc.).
Como calcular é um percentil?
Primeiro, você precisa conhecer a função cumulativa \({{F}_{X}}\). Então, para \(\alpha\) entre 0 e 1, precisamos resolver para \(x\):
\[\alpha ={{F}_{X}}\left( x \right)\]Observe que resolver para x a equação acima é o mesmo que interceptar a curva \( F_{X}(x)\) com a linha \(y=\alpha\) (que é paralela ao eixo x). Quando \({{F}_{X}}\) é contínuo, a interseção entre a linha \(y=\alpha\) e \({{F}_{X}}\left( x \right)\) existe, mas isso não é necessariamente verdadeiro para todos os valores de \(\alpha\) para um \({{F}_{X}}\left( x \right)\) não contínuo.
Um percentil é um parâmetro ou uma estatística?
Para a definição que fornecemos, um percentil é um parâmetro da população, pois depende estritamente da função de distribuição e não dos dados da amostra. É aí que surge a confusão. Às vezes, os alunos recebem dados de amostra e são solicitados a calcular um percentil. Na realidade, o que eles estão sendo solicitados a calcular é um percentil de amostra, uma estatística que é calculada usando dados de amostra e que esperamos que seja uma boa estimativa do correspondente. percentil da população.