Tudo o que você precisa saber sobre o teste de hipóteses: os truques que você precisa aprender
O teste de hipóteses pode ser um tópico confuso, especialmente se você não conhece bem os fundamentos. Aprendendo alguns princípios fáceis, você será capaz de entender tudo o que há para saber sobre o teste de hipóteses.
O que é um teste de hipótese?
Essa é a primeira questão que abordaremos. Um teste de hipótese é um procedimento estatístico que usa dados de amostra para tomar uma decisão sobre uma determinada reclamação, que envolve um determinado parâmetro de população. Portanto, os atores necessários para a realização de um teste de hipótese são:
(1) Os dados da amostra
(2) Uma certa afirmação sobre um parâmetro de população
Sem nenhum dos dois acima, pode testar uma hipótese. Agora, vamos um pouco mais além e explicar quais são esses dois componentes principais
A amostra
Vamos lembrar que uma amostra é um subconjunto menor de uma população inteira. E uma população é o conjunto completo de assuntos sobre os quais você deseja investigar. Normalmente, as populações são grandes, então se quisermos fazer uma afirmação sobre uma grande população, tentamos fazer isso selecionando uma pequena amostra, na esperança de que a amostra de alguma forma contenha informações sobre toda a população. Isso parece um tiro longo, mas acaba sendo verdade em alguns casos.
Nossa esperança é que, analisando uma pequena amostra de uma população, possamos saber muito sobre a população. Quando isso acontece, dizemos que a amostra é representante de toda a população . Mas não basta qualquer amostra. Precisamos coletar algo chamado de amostra aleatória . Existem diferentes estratégias para coletar amostras aleatórias, dependendo do tipo e tamanho da população, mas o que eu quero que você mantenha agora é que existem procedimentos razoavelmente razoáveis para produzir amostras aleatórias, que se espera que sejam representativas de suas populações. E, depois de ter uma amostra aleatória, você estará usando um procedimento de teste de hipótese que o ajudará a obter informações sobre toda a população da amostra.
A afirmação sobre um parâmetro populacional
Agora que você tem uma amostra, precisa de uma declaração para testar. Existem boas e más notícias. A boa notícia é que os parâmetros populacionais são números simples, de modo que uma afirmação sobre os parâmetros populacionais é simplesmente sobre qual poderia ser o valor potencial daquele parâmetro populacional. O que quero dizer com isso é que as reivindicações são muito simples de um ponto de vista estrutural. Por exemplo, suponha que você tenha uma variável aleatória que é normalmente distribuída, com uma média desconhecida igual a \(\mu\). Gostaríamos de obter uma amostra dessa população e dizer algo sobre \(\mu\). As afirmações sobre \(\mu\) são afirmações sobre seus valores potenciais. Quer dizer, algo como \(\mu =10\) é uma reivindicação real, ou \(\mu <10\) é uma reivindicação também. Qualquer coisa que indique um possível conjunto de valores para um parâmetro de população é uma reivindicação.
A má notícia é que não podemos testar qualquer afirmação. Para conduzir um teste de hipótese e testar uma afirmação sobre um parâmetro populacional, precisamos ter uma certa estrutura. Ou seja, só podemos trabalhar com dois tipos de reivindicações, ou, nesse contexto, precisamos definir entre duas hipóteses: a hipótese nula e a hipótese alternativa. Essas duas hipóteses são afirmações sobre um parâmetro da população, com a peculiaridade de que (a) elas não devem se sobrepor e (b) a hipótese nula deve conter o sinal "=" nele.
Deixe-me reformular isso : Se você deseja executar um teste de hipótese você deve ter duas hipóteses, a hipótese nula e a hipótese alternativa. Essas duas hipóteses são afirmações que afirmam algo sobre o valor numérico do parâmetro da população. O conjunto de valores potenciais do parâmetro populacional que são declarados na hipótese nula NÃO PODE ter qualquer valor em comum com o conjunto de valores potenciais do parâmetro populacional que são declarados na hipótese alternativa. Além disso, a hipótese nula deve conter o sinal "=" em sua declaração algébrica. Por exemplo, \(\mu =13\) e \(\mu \le 13\) são exemplos de hipóteses nulas, mas \(\mu >10\) não pode ser uma hipótese nula.
Uma hipótese nula é escrita como \({{H}_{0}}\) e uma hipótese alternativa é escrita como \({{H}_{A}}\). Um exemplo de um conjunto de hipóteses adequadamente definido é
\[\begin{align} & {{H}_{0}}:\mu =10 \\ & {{H}_{A}}:\mu \ne 10 \\ \end{align}\]Mas, por exemplo, este conjunto de hipóteses não é válido:
\[\begin{align} & {{H}_{0}}:\mu =10 \\ & {{H}_{A}}:\mu \ge 10 \\ \end{align}\]Por que o conjunto acima não é válido? Porque o conjunto de valores possíveis declarados por \({{H}_{0}}\) e \({{H}_{A}}\) se sobrepõem (veja que ambas as hipóteses nula e alternativa incluem 10 como um valor possível para \(\mu\)).
A mecânica de um teste de hipótese
Agora que você tem uma amostra e uma hipótese nula e alternativa definida corretamente, pode realizar um teste de hipótese. Agora você pode calcular um Estatística de teste , essa é a peça central de todo o processo. Uma estatística de teste é simplesmente um valor numérico (aleatório) que é calculado a partir dos dados da amostra e dos valores declarados na hipótese. A fórmula real usada para calcular uma estatística de teste depende do tipo de parâmetro que está sendo estimado (por exemplo, usamos um tipo diferente de estatística de teste quando estamos testando para uma média da população \(\mu\) do que quando estamos testando uma variação da população \(\sigma\)).
A filosofia, porém, para TODOS os testes de hipótese é a MESMA. Por favor, guarde isto em sua cabeça: a estatística de teste é calculada e seu resultado é verificado assumindo que a hipótese nula é verdadeira. Portanto, o princípio é: Se eu assumir que a hipótese nula \({{H}_{0}}\) é verdadeira, quão improváveis são os mesmos resultados obtidos? A filosofia é que se os resultados da amostra forem improváveis sob a suposição de que \({{H}_{0}}\) é verdadeiro, então descartamos \({{H}_{0}}\) como uma opção plausível.
A probabilidade de que os resultados da amostra sejam pelo menos tão extremos quanto os observados pode ser normalmente calculada (porque geralmente assumindo que \({{H}_{0}}\) é verdadeiro determina o valor do parâmetro desconhecido que determina a distribuição da população), e essa probabilidade é chamada de valor p .
Um valor de p baixo indica que os resultados da amostra são incomuns se considerarmos \({{H}_{0}}\) como verdadeiro. Mas, quão baixo é baixo o suficiente? Bem, precisamos definir um limite, que chamamos nível de significância, ou \(\alpha\). Este valor de \(\alpha\) representa o risco que estamos dispostos a correr de rejeitar uma hipótese nula verdadeira.
Resultados de um teste de hipótese
Então, finalmente, como respondemos às hipóteses? Simples, se o valor p calculado for tal que $ p <\ alpha $, então rejeitar a hipótese nula . Caso contrário, se \(p\ge \alpha\), nós falhar em rejeitar a hipótese nula. Observe que não existe tal coisa como "aceitar a hipótese nula". Os dados de amostra NÃO PODEM provar a hipótese nula devido à forma fundamental como são construídos.
Se a hipótese nula não for rejeitada, os dados da amostra estão nos dizendo "olha, não parece que os dados da amostra contradizem a hipótese nula, então vamos mantê-la, pelo menos por enquanto".
Por outro lado, se a hipótese nula for rejeitada, os dados da amostra estão nos dizendo "olhe, os dados da amostra parecem estar em conflito com a hipótese nula, então seria sensato verificar sua hipótese nula, porque ela pode estar errada "
Nós entendemos direito?
Um equívoco é que um teste de hipótese dará uma resposta infalível. Não pode estar mais longe da verdade. A decisão sobre o teste de hipótese (rejeitar Ho OU não rejeitar Ho) pode estar realmente errada. Encare o fato, examine-o.
Como você pode estar errado? Na verdade, de duas maneiras: primeiro, se você rejeitar a hipótese nula, estará alegando que a hipótese nula não é verdadeira. Portanto, se a hipótese nula REALMENTE verdadeira, você cometeu um erro. Isso é chamado de erro Tipo I, em que sua decisão de rejeitar Ho está errada, porque Ho é realmente verdadeiro. A probabilidade deste tipo I de erro é \(\alpha\).
O segundo tipo de erro ocorre quando você falha em rejeitar a hipótese nula, então você não encontra evidências suficientes para afirmar que a hipótese nula é falsa. Mas, se descobrir que a hipótese nula é REALMENTE falsa, você cometeu um erro. Isso é chamado de erro Tipo II, no qual sua decisão de não rejeitar Ho está errada, porque Ho é realmente falso. A probabilidade desse tipo de erro II é denominada \(\beta\).
Por enquanto é isso.