Определение выбросов по критерию Граббса

 

Существуют стандартные критерии определения выбросов в выборке при заданном уровне значимости/доверия. Примеры таких критериев: критерий Шовене, тест Граббса, критерий Пирса, Q-тест Диксона. Упомянутые критерии (исключение: критерий Граббса) выстраивают выборку по возрастанию и проверяют крайние значения (min, max элемент выборки) на выброс, подключается таблица критических значений. Значения в таблицах зависят от количества элементов в выборке и уровня доверия/значимости. Критерии позволяют определить точно один выброс, в случае, когда их много, критерии могут не работать.

 

Критерий Граббса позволяет находить несколько выбросов (1, 2 ,3 можно расширить до n), но основное предположение этого критерия, это нормальное распределение данных, что очень сильно ограничивает возможность применения данного критерия к автоматической обработки данных.

 

Описание предлагаемого подхода:

1.     Выстраиваем все элементы выборки по возрастанию (от меньшего к большему)

, где  — выборка данных. (*В случае многомерной выборки для сравнения элементов предлагается рассматривать евклидову метрику).

2.     Определение максимально возможный процент выбросов в выборке (указывается экспертом, например 5%)

Здесь определяется верхняя граница количества выбросов. Это не значит, что число выбросов будет составлять строго 5% от выборки, это число будет меньше либо равно 5%. Этот параметр обозначим за .

3.     Строим ряд разностей

 таким образом получим n-1 положительных элементов в последовательности:  (последовательность не обязательно возрастающая)

4.     Находим максимальную разность

В последовательности разностей находим максимальную разность: .

5.     Проверка, попадает ли выброс в заданную в п.2. область

В п.4. получили некоторый индекс  — который является максимальным в последовательности разностей. Если этот индекс  и, в тоже время, , то в выборке нет выбросов, прекращаем проверку. В противном случае, элемент с индексом  подозрителен на выброс.  (если индекс попал в интервал  это значит, что максимальная разность достигнута в середине выборки, где предположили, что выбросов нету, задав параметр )

6.     Вырезаем подвыборку из начального набора данных

Здесь имеем два случая:

если  , тогда рассматриваем только  у которых  (т.е. обрезаем выборку с начала),

если  , тогда рассматриваем только  у которых  (т.е. обрезаем выборку в конце).

7.     Среднее значение разностей

Находим среднее значение выборки разностей (п.3.) с учетом набора индексов (п.6.): , где  — число элементов в вырезанной подвыборке.

8.     Среднеквадратическое отклонение

Рассчитываем характеристику разброса элементов: .

9.     Считаем статистику Граббса

Используем формулу Граббса для расчета значения статистики:

10.  Задаем уровень значимости

 — величина вероятности ошибки ( обычно 1%, 5%, 10%).

11.  Использование таблицы критических значений, сравнение величины статистики из п.9. с критическим значением.

По значению уровня значимости и числу элементов в подвыборке  находим критическое значение в таблице Граббса, обозначим его за .

Сравниваем полученное значение полученное в п.9. Возможны два случая:

 — исследуемое значение не является выбросом и в выборке нет начальном наборе данных нет выбросов вообще,

 — исследуемое значение является выбросом. Если оно находится во второй половине выборки (п.1.), то все значения идущие после  являются выбросами, если оно находится в первой половине выборки (п.1.), то все значения идущие до    являются выбросами.

12.  Если в п.11. был обнаружен выброс, то из начальной выборки убираем выбросы и повторяем весь алгоритм с первого пункта (п.1.)

 

Выбросы влияют на следующий анализ:

— на Управление Запасами (информацию о котором вы можете прочитать по ССЫЛКЕ);

— на Планирование (информацию о котором вы можете прочитать по ССЫЛКЕ и ССЫЛКЕ);

Если Вы хотите начать работу в системе Mycroft Assistant, Вам необходимо пройти регистрацию по ССЫЛКЕ и следовать дальнейшим инструкциям.