Контрольные карты для альтернативных данных (атрибутов, подсчётов) p-карта, np-карта, C-карта и u-карта или одна XmR-карта индивидуальных значений?
"Сложность использования p-карт, np-карт, c-карт или u-карт состоит в том, что трудно определить, подходят ли для данных биномиальные или пуассоновские модели".
Мы представляем перевод статьи Дональда Уилера: "А как насчет p-карты? Когда следует использовать контрольные карты p-карту, np-карту, C-карту и u-карту для альтернативных данных (подсчётов)?" / Donald J. Wheeler, Article: "What About p-Charts? When should we use the specialty charts p-chart, the np-chart, the c-chart, and the u-chart for count data?" [31]
Перевод и примечания: научный директор Центра AQT Григорьев С. П..
Бесплатный доступ к статьям нисколько не уменьшает ценности изложенных в них материалов.
Содержание
Все контрольные карты для подсчётов на основе данных являются картами для дискретных значений. Независимо от того, работаем ли мы с количеством или долями, мы получаем одно значение за период времени и хотим построить точку на графике каждый раз, когда мы получаем значение. Именно поэтому были разработаны четыре специальные диаграммы для данных, основанных на подсчётах, ещё до того, как был обнаружен подход к построению контрольных XmR-карт индивидуальных значений. Это четыре диаграммы в р-карта, np-карта, C-карта, и u-карта. В этой статье задается вопрос, когда использовать эти и другие специальные диаграммы с данными, основанными на подсчётах.
Первая из этих специальных карт, p-карта (p-chart), была создана Вальтером Шухартом в 1924 году. В то время идея использования двухточечного скользящего размаха для измерения дисперсии набора отдельных значений еще не возникла. (У. Дж. Дженнет предложил эту идею в 1942 году.) Итак, проблема, с которой столкнулся Шухарт, заключалась в том, как создать диаграмму поведения процесса для дискретных значений на основе подсчетов. Несмотря на то, что он мог построить данные в виде текущей записи, и хотя он мог использовать среднее значение в качестве центральной линии для этой текущей записи, препятствием было то, как измерить дисперсию, чтобы отфильтровать обычные вариации. С дискретными значениями он не видел возможности, как использовать вариацию внутри подгруппы, и он знал, что лучше не пытаться использовать глобальную статистику стандартного отклонения, которая будет завышена любым имеющимся исключительным отклонением в имеющихся данных. Поэтому он решил использовать теоретические пределы, основанные на вероятностной модели.
Классические вероятностные модели для простых данных подсчёта являются Биномиальными и Пуассоновскими, и Шухарт знал, что обе эти модели имеют параметр дисперсии, который является функцией их параметра местоположения. Это означало, что оценка среднего, полученная из данных, может также использоваться для оценки дисперсии. Таким образом, с помощью одной статистики местоположения он мог оценить как центральную линию, так и расстояние в три сигмы.

Рисунок 1: Специальные контрольные карты Шухарта для данных подсчётов.
Это двойное использование среднего для характеристики как местоположения, так и дисперсии означает, что p-карта, np-карта, c-карта, и u-карта имеют пределы, которые основаны на теоретической связи между средним и дисперсией.
Следовательно можно сказать, что все специальные контрольные карты используют теоретические пределы. Если подсчёты можно разумно смоделировать либо с помощью биномиального распределения, либо с помощью распределения Пуассона, то для карт дискретных значений могут быть получены соответствующие контрольные границы.
За последние годы многие учебники и стандарты забыли, что предположение о биномиальной модели или модели Пуассона является предварительным условием для использования этих специальных контрольных карт. Это проблема, так как существует множество типов данных на основе подсчётов, которые не могут быть охарактеризованы ни биномиальным, ни Пуассоновским распределениями. При размещении таких данных на p-карте, np-карте, c-карте, и u-карте полученные теоретические пределы будут неверны.
Так что же нам делать? Проблема с теоретическими пределами заключается в предположении, что мы знаем точное соотношение между центральной линией и расстоянием в три сигмы. Решение состоит в том, чтобы получить отдельную оценку дисперсии, что и делает XmR-карта: в то время как среднее будет характеризовать местоположение и служить центральной линией для X-карты индивидуальных значений, средний скользящий размах mR-карты будет характеризовать дисперсию и служить основой для вычисление расстояния трех сигм для X-карты.
Таким образом, основное различие между специальными контрольными картами для подсчётов и XmR-картой заключается в способе вычисления расстояния трех сигм. Контрольные p-карта, np-карта, c-карта и u-карта будут иметь ту же текущую запись и, по сути, те же центральные линии, что и X-карта. Но когда дело доходит до вычисления пределов трех сигм, специальные контрольные карты используют предполагаемую теоретическую взаимосвязь для вычисления теоретических значений, в то время как XmR-карта фактически измеряет вариацию, присутствующую в данных, и строит эмпирические пределы.
Чтобы сравнить специальные контрольные карты с XmR-картой, мы будем использовать три примера. Первый из них будет использовать данные, показанные на рисунке 2. Эти значения поступают из бухгалтерии, которая отслеживает, сколько счетов закрыто «вовремя» ежемесячно. Показанные подсчёты представляют собой ежемесячное количество закрытий, которые были завершены вовремя на 35 закрытий (равную область определения).

Рис. 2: Х-карта и np-карта ежемесячного количества вовремя закрытых счетов из каждых 35 счетов.
Красные пунктирные линии - верхняя и нижняя контрольные границы для X-карты, синие для p-карты.
Здесь вычисления как np-карты, так и для X-карты дают практически одинаковые пределы. (Верхнее предельное значение 36,8 не показано, поскольку оно превышает максимальное значение 35 своевременных закрытий.) Здесь два подхода по существу идентичны, потому что эти подсчёты, по-видимому, соответствующим образом моделируются биномиальным распределением. Если вы достаточно опытны, чтобы определить, когда это произойдет, тогда вы узнаете, когда np-карта будет работать, и сможете успешно её использовать. С другой стороны, если вы недостаточно опытны, чтобы знать, когда подходит биномиальная модель, вы все равно можете использовать XmR-карту. Как можно увидеть здесь, когда np-карта работала бы, эмпирические пределы X-карты будут идентичны теоретическим пределам np-карты, и вы ничего не потеряете, используя XmR-карту вместо np-карты.
В нашем следующем примере мы будем использовать своевременные поставки для завода. Данные показаны на рисунке 3 вместе с X-картой и p-картой для этих данных.

Рисунок 3: Х-карта и p-карта для процента своевременных поставок по месяцам за два года.
На X-карте показан процесс с тремя точками на нижнем пределе или ниже. Пределы переменной ширины p-карты в пять раз шире, чем пределы, найденные с использованием скользящих размахов. Никакие точки не выходят за эти пределы. Это несоответствие между двумя наборами пределов указывает на то, что данные на рисунке 3 не удовлетворяют биномиальным условиям. В частности, вероятность того, что отгрузка будет доставлена вовремя, не одинакова для всех отправлений в любой конкретный месяц. Поскольку биномиальная модель не подходит для этих данных, теоретические пределы p-карты неверны. Однако эмпирические пределы XmR-карты, которые не зависят от соответствия конкретной вероятностной модели, верны.
В нашем последнем сравнении будут использоваться данные из рисунка 4. Здесь у нас есть процент поступающих грузов для одного завода по сборке электроники, которые были отправлены с использованием авиаперевозок. Две точки выходят за пределы p-карты переменной ширины, но ни одна точка не выходит за пределы X-карты.

Рисунок 4: X-карта индивидуальных значений и p-карта для процента отгрузок с использованием авиаперевозок.
На рисунке 4 типично то, что происходит, когда область возможностей для подсчета предметов становится чрезмерно большой. Биномиальная модель требует, чтобы все элементы в любой заданный период времени имели одинаковые шансы обладать подсчитываемым атрибутом. Здесь это требование не выполняется. С тысячами отправлений каждый месяц вероятность того, что партия будет отправлена по воздуху, не одинакова для всех отправлений. Таким образом, биномиальная модель не подходит, а теоретические пределы p-карты, которые зависят от биномиальной модели, неверны. Пределы X-карты, которые здесь вдвое шире, чем пределы p-карты, правильно характеризуют как расположение, так и разброс этих данных и являются правильными пределами для использования.
Таким образом, сложность использования p-карт, np-карт, c-карт или u-карт состоит в том, что трудно определить, подходят ли для данных биномиальные или пуассоновские модели. Как видно на рисунках 3 и 4, если вы упустите предварительные условия для специальных контрольных карт, вы рискуете совершить серьезную ошибку на практике. Вот почему вам следует избегать использования специальных контрольных карт, если вы не знаете, как оценить соответствие этих вероятностных моделей.
В отличие от использования теоретических моделей, которые могут быть или не быть правильными, XmR-карта предоставляет нам эмпирические пределы, которые фактически основаны на вариации, присутствующей в данных. Это означает, что вы можете использовать XmR-карту с данными на основе подсчётов в любое время. Поскольку p-карта, np-карта, c-карта и u-карта являются частными случаями диаграммы для дискретных значений, XmR-карта будет имитировать эти специальные диаграммы, когда они подходят, и будет отличаться от них, когда они ошибаются.
В случае специальных контрольных карт, имеющих пределы переменной ширины, XmR-ката будет имитировать пределы, основанные на средней области определения контрольных карт для подсчётов. Кроме того, при проведении этих сравнений я предпочитаю иметь не менее 24 подсчётов в базовый период.

Рисунок 5: Подход без допущений для данных на основе подсчётов.
Таким образом, если у вас нет ученых степеней в области статистики или если вам просто трудно определить, можно ли характеризовать ваши подсчеты биномиальным или пуассоновским распределением, вы все равно можете проверить свой выбор специальной карты для своих данных на основе подсчётов путем сравнения теоретических пределов с эмпирическими пределами XmR-карты. Если эмпирические пределы примерно такие же, как теоретические, тогда вероятностная модель работает. Если эмпирические пределы не соответствуют теоретическим пределам, то вероятностная модель неверна.
Вы всегда можете быть уверены, что у вас получены правильные контрольные пределы для ваших данных, основанных на подсчётах, если вы используете с самого начала XmR-карту. Эмпирический подход всегда будет правильным.
Примечание (С. Григорьев)
В своей книге "Статистическое управление процессами. Оптимизация бизнеса с использованием контрольных карт Шухарта" Дональд Уилер так определяет еще одно условие необходимое для минимизации влияния дискретности данных подсчётов на эмпирические контрольные пределы XmR-карты индивидуальных значений:
"XmR-карту для дискретных данных можно построить во всех случаях, когда среднее значение подсчета больше единицы. Если же оно больше двух, то влияние дискретности на контрольные пределы будет ничтожным.
Поскольку редко имеет смысл использование дискретных величин, когда можно получить результаты измерений, использование атрибутов, в общем, ограничивается такими ситуациями, когда можно подсчитывать «ляпы». Однако определение «ляпа» обычно представляет огромную трудность.
Главная трудность в определении «ляпа» — это проблема операциональных определений".
Таким образом, если у вас среднее значение подсчётов меньше двух, вы можете легко нейтрализовать эту проблему увеличив область определения для получения среднего значения подсчётов до значения равного или более 3 (трём), что особенно актуально для событий с распределением Пуассона (подсчитываются дефекты, а не дефектные изделия и можно подсчитать только дефекты, но ни в коем случае не "число недефектов").
Например
Если у вас среднее число подсчётов дефектов на область определения равную одному квадратному метру ткани равно 1 (единице), вы можете использовать область определения из трёх метров квадратных, получив среднее число дефектов на новую область определения равное 3 (трём). Используйте ту область определения, которую легко сможете выделять для проверки (испытания), например, для рулона полотна ткани шириной 1,2 метра можно использовать область определения в 3 погонных метра.
Формула расчёта необходимой минимальной области определения:
Если среднее подсчётов исторических данных < 3, тогда
новая минимальная область определения получается умножением текущей области определения на коэффициент (k):
k = 3/среднее значение подсчётов исторических данных;
минимальная новая область определения = k × текущая область определения.
Выберите удобную для контроля область определения (=) или (>) полученной минимальной новой области определения.
Для биномиальных величин (да/нет, дефектное/недефектное, невовремя/вовремя), можно использовать XmR-карту для значений положительных исходов, как это реализовано в примерах 1 (рисунок 2) и 2 (рисунок 3) этой статьи Дональда Уилера. Влияние дискретности данных биномиальных моделей на XmR-карту индивидуальных значений подчиняется тем же правилам, что и для пуассоновских моделей, придерживайтесь среднего значения подсчётов меньшего из исходов (да/нет) не менее 3 (трёх).
Внимание!
Если области определения различны, вы не можете сравнивать числа подсчётов без приведения их в доли от соответствующих областей определения. Если всё же вам сложно интерпретировать доли, вы можете привести полученные значения подсчётов к одной области определения, как в примере 1 этой статьи Д. Уилера на примере контрольной карты вовремя закрытых счетов. Для этого вы можете воспользоваться формулой, показанной ниже.
Искомое:
xi - приведённое к постоянной области определения число подсчётов.
"Все доли — дроби, но не все дроби — доли. Дробь можно считать долей тогда, когда знаменатель будет описывать область определения для значений числителя".

Рисунок 6: Пример расчёта доли дефектных изделий на область определения. Только отношение 3/20 является долей.
Вы должны позаботиться о следовании всем рекомендациям этой статьи ещё на шаге планирования сбора данных. В абсолютном большинстве случаев, если данные не представляют результат 100%-го контроля, любые манипуляции с имеющимися историческими данными по увеличению области определения с использованием математики, исказят картину происходящего.