2 46 38 1 116 14 20!, или снова о выборах

Feb 19, 2012 08:35


corbulon заметил, что если брать последнюю цифру количества проголосовавших за Единую Россия по каждому из 3373 московских участков, то их распределение довольно сильно отличается от равномерного. Я предложил ему для строгой оценки этого отклонения воспользоваться классическим критерием Пирсона.



В случае сравнения с равномерным распределением этот критерий имеет особенно простой вид. Предположим, что у нас имеется N цифр, принимающих значения от 0 до 9. Обозначим через N0 количество нулей, через N1 количество единиц, и т.д., через N9 количество девяток, так что сумма N0+N1 +  ... + N9 будет совпадать с N. В качестве так называемой нулевой гипотезы (это то предположение о стохастической природе наблюдаемых данных, которое мы пытаемся подтвердить или опровергнуть их анализом) примем, что каждая из N цифр выбиралась независимо от других, и все возможные 10 ее значений равновероятны, т.е., каждое принимается с одной и той же вероятностью 1/10. Иначе говоря, вероятностная модель нашего набора из N цифр такова: мы берем "честную" 10-гранную кость, на гранях которой написаны значения от 0 до 9, подбрасываем ее, записываем выпавшую цифру, и так N раз. Все статистические критерии устроены одинаково и заключаются в вычислении некоторой функции от исследуемых данных (так называемой статистики) и сравнении найденного значения с теоретическим распределением статистики в предположении справедливости нулевой гипотезы. Если полученное значение статистики маловероятно, то нулевая гипотеза отвергается. С другой стороны, если значение статистики является "типичным", то это говорит всего лишь о том, что исследуемые данные не противоречат нулевой гипотезе, которая вполне может отвергаться каким-нибудь другим тестом. В нашем случае статистика критерия Пирсона - это

X2 = [(N0−n)2 + (N1−n)2 + ... + (N9−n)2]/n ,  где n=N/10 - ожидаемое значение числа появлений каждой цифры,

т.е., деленная на n сумма квадратов отклонений наблюденных значений Ni от ожидаемого n. Хотя распределение значения X2 (в предположении нулевой гипотезы) и зависит от N , с ростом N оно быстро сходится к предельному распределению, называемому χ2  (в нашем случае - это распределение χ2  с 9 степенями свободы). Принято считать, что для использования предельного распределения ожидаемые значения (в нашем случае это n=N/10) не должны быть меньше 5, т.е., в нашем случае N должно быть не меньше 50. Таким образом, проверка по Пирсону на равномерность распределения последних цифр заключается в следующем: вычисляем X2  , после чего по таблице распределения χ2  с 9 степенями свободы (или с использованием калькулятора) находим соответствующее значение p функции распределения χ2  (т.е., вероятность того, что в предположении нулевой гипотезы статистика Пирсона не превосходит найденную величину). Если p очень мало (распределение слишком равномерно) или наоборот p очень близко к 1 (распределение слишком отличается от равномерного), то нулевая гипотеза отвергается. Популярными значениями уровня значимости (порога отвержения) являются 10%, 5%, 1% и 0.1%. Мы будем пользоваться односторонним критерием Пирсона (т.е., отвергать нулевую гипотезу только при наличии слишком большой неравномерности). Тогда соответствующие критические значения для статистики Пирсона составляют, соответственно, 14.7, 16.9, 21.7, 27.9. Таким образом, например, если значение статистики Пирсона составляет 23, то, поскольку вероятность (в предположении верности нулевой гипотезы) превышения значения 21.7 составляет 1%, мы можем отвергнуть нулевую гипотезу с уровнем значимости 1%. Значение 32 было бы еще куда менее вероятным - в этом случае нулевая гипотеза отвергалась бы с уровнем значимост .1%. С другой стороны, значение 12 нулевой гипотезе не противоречило бы.

corbulon после этого посчитал значения статистики Пирсона для распределений последних цифр в каждом из российских регионов. Его таблица составлена следующим образом: для каждого из регионов (83 субъекта федерации плюс Байконур плюс остальные участки за границей - всего 85) и каждой из исследуемых величин (количество избирателей в списках, количество выданных бюллетеней, количество действительных бюллетеней, количество голосов за КПРФ, количество голосов за ЕР) бралось распределение последних цифр по всем избирательным участкам этого региона, после чего вычислялось значение статистики Пирсона для сравнения этого эмпирического распределения с гипотетическим равномерным.  В таблице цветом отмечены значения, превышающие квантили распределения χ2  с 9 степенями свободы  уровней .9, .95, .975, .99 и .999. Иначе говоря, в предположении "нулевой гипотезы" о том, что последние цифры представляют собой выборку из равномерного распределения, вероятность, например, того, что значение статистики Пирсона превышает 16.92, составляет 5%. Кстати - придется побыть адвокатом дьявола - гипотезу о равномерной распределенности последней цифры числа проголосовавших за ЕР по московским избирательным участкам критерий Пирсона все-таки не отвергает. В этом случае значение статистики Пирсона составляет вполне допустимые 12.64 (соответствующая кумулятивная вероятность для χ2 равна .82).

corbulon интерпретирует, значения статистики Пирсона следущим образом: чем она больше, тем больше фальсификации. Это, разумеется, так, если значения превосходят всякие разумные пределы - как, например, для Дагестана (см. опять же таблицу). К сожалению, мне не удалось убедить corbulon'а, что в предположении нулевой гипотезы о "честных выборах" набор значений статистики Пирсона для разных регионов должен сам быть независимой выборкой из распределения χ2, и поэтому, скажем примерно 10% значений должны будут превышать соответствующее пороговое значение 14.7. Я проверил соответствие данных из все той же таблицы распределению χ2 с 9 степенями свободы (т.е., нулевая гипотеза для каждого столбца заключается в том, что он является выборкой независимых случайных величин с распределением χ2) с использованием критерия Крамера - фон Мизеса (для всех регионов из таблицы количество участков не меньше 50, за исключением Байконура, который я исключил). Полученные значения статистики Крамера - фон Мизеса ω2 составляют для, соответственно, количества избирателей в списках - .095, количества выданных бюллетеней - .059, количества действительных - .470, голосов за КПРФ - 1.914, голосов за ЕР - .057.  Критические значения статистики ω2 для уровней значимости .1, .05 и .01 составляют, соответственно, .173, .220 и .34. Таким образом, нулевая гипотеза отвергается (и с большим запасом) только для распределений количества действительных голосов и количества голосов за КПРФ.

Интерпретация этих результатов мне неясна.

PS Пока я сочинял и писал этот пост (что заняло в силу разных обстоятельств больше недели), corbulon  выложил еще одну таблицу, где, в частности, есть совершенно зашкаливающие значения статистики Пирсона (точнее, соответствующих вероятностей) для всей России - в том числе и для распределений количества избирателей в списках, количества выданных бюллетеней и голосов за ЕР, которые по моим подсчетам в целом по России вели себя вполне прилично. Не знаю пока, как объяснить это расхождение.  Возможно, дело в накапливании небольших отклонений, которые вполне допустимы для каждого региона в отдельности, но начинают быть заметными только в кумулятивной выборке.

Previous post Next post
Up