Калькулятор критериев шовене
Инструкции: Используйте этот калькулятор выбросов критерия Шовена для обнаружения выбросов с помощью z-оценки. Введите данные образца, и этот калькулятор покажет вам все шаги:
Обнаружение выбросов с использованием критерия шовена
Что такое аномалия и почему мы о ней заботимся
Выбросы — это значения в наборе данных, которые кажутся слишком экстремальными по сравнению с другими значениями в наборе данных. Естественно, такое определение слишком расплывчато, но на самом деле существует множество различных мнений о том, что такое выбросы и как с ними бороться.
На данный момент мы будем придерживаться идеи, что выбросы часто являются симптомом определенного поведения базовой совокупности, а наличие выбросов может быть признаком того, что базовая совокупность не распределена нормально.
Как рассчитывается критерий шовена?
Неформально критерий Шовена основан на идее, что если исходная совокупность распределена нормально, то было бы разумно найти все или большинство значений выборки в пределах определенной "полосы" вокруг среднего значения распределения.
Теперь это отклонение измеряется в относительных величинах, подсчитывая, сколько стандартных отклонений от среднего значения выборочных данных. Другими словами, мы имеем дело с z-оценками
Математически, используя критерий Шовена, полоса вокруг среднего, где находятся "разумные" значения данных, равна \(P = 1- \frac{1}{2n}\). Таким образом, общая область, где находятся выбросы, равна \(\frac{1}{4n}\), распределенная по двум хвостам, где \(n\) — размер выборки
Другими словами, мы находим пороговое значение \(D_{max}\), которое удовлетворяет следующему условию:
\[ \Pr(Z > D_{max}) = \displaystyle \frac{1}{4n}\]а значение \(X\) будет выбросом, если его Z-оценка ассоциации имеет абсолютное значение, превышающее \(D_{max}\), это \(|Z| > D_{max}\).
Почему аутсайдеры так актуальны
Как мы уже упоминали, выбросы могут быть симптомом, указывающим на отсутствие нормальности, что может означать, что различные статистические процедуры, такие как z-тесты и t-тесты, дадут ненадежные выводы.
Использование критерия Шовена — не единственный способ обнаружения выбросов, поскольку вы также можете найдите выбросы, используя правило IQR . Теперь обнаружение выбросов — это всего лишь часть более крупной схемы, поскольку всякий раз, когда вы хотите запустить статистический анализ, вам, вероятно, придется предварительно запустить описательный статистический анализ для оценки распределительных свойств используемого образца.