вычленил отсюда
http://jemmybutton.livejournal.com/1359.html 1. Распределение участков по явке
Во-первых нормального распределения (распределения Гаусса) в случае когда случайная величина (в данном случае - явка) по определению принимает значения только в определенном диапазоне быть не может + нормальное распределение, вообще говоря, симметрично (то что проходит под названием «нормальное» меняет форму в зависимости от расположения на шкале и вообще интересно как себя должно вести вблизи нуля или единицы), тут надо говорить о чем-то вроде бета-распределения или логит-нормального распределения (не знаю как по-людски называется, но именно логит log(x/(1-x)) величины, а не саму величину анализируют для таких данных, насколько я понял, см., например,
здесь или
тут, upd: впрочем, логит-нормальное распределение мне не нравится, бета-распределение круче или SB Джонсона, может) (это все не очень важно (до поры), просто для справки любителям помянуть «гауссиану» к месту и не к месту). Во-вторых, причудливая форма распределения может объясняться неоднородностью электората. Для примера, вот распределение для выборов в бундестаг 2002 (данные отсюда
http://www.bundeswahlleiter.de/en/bundestagswahlen/fruehere_bundestagswahlen/btw2002.html , только по избирательным округам).
плотность вероятности от явки (если шкалу заменить на количество округов, то вместо 20 будет где-то 60). да, выборка небольшая, но 300 значений для общего представления о распределении обычно вполне достаточно.
Небольшой пик слева (в районе 75), насколько можно судить, соответствует меньшей явке в Восточной Германии (впрочем, дело не только в этом, см. ниже). Распределение, следовательно, не обязано подчиняться каким-то определенным простым законом (и по определению не может быть «нормальным»)
UPD: тут люди говорят, что распределение нормальное, просто кривенькое, по причине малого количества точек.
нормальность распределения, вообще, проверяется не на глаз, а при помощи специальных критериев.
парочка вот (нулевая гипотеза - расределение под вопросом является нормальным).
Shapiro-Wilk normality test
W = 0.909, p-value = 7.397e-13
Lilliefors (Kolmogorov-Smirnov) normality test
D = 0.1667, p-value < 2.2e-16
около трехсот значений (звиняйте, данных по отдельным участкам найти не удалось) как правило уже вполне достаточно (вообще может даже многовато), чтобы результат не вызывал сомнений, а при таких значениях p и говорить не о чем. правда это ни о чем не говорит в любом случае.
Кстати, услышите что распределение где-то «нормальное» или «ненормальное», сразу требуйте результат проверки на нормальность. Правда да, на таких больших выборках это бессмысленно.
UPD: распределение по регионам и так ли все просто
![](http://pics.livejournal.com/jemmybutton/pic/0002611p)
распределения явки по отдельным землям. зеленым - те что прошли проверку на нормальность, красным - та что не прошла (а именно - Северный Рейн-Вестфалия, совсем не граница фрг и гдр, к слову). особого смысла тут искать не стоит, впрочем (с одной стороны выборки маленькие и тест на нормальность может показать все что угодно, с другой - на таких данных тест на нормальность вообще может показать все что угодно). Земли не все, а только те, где больше 10 округов (если включить с 10 округами, будет еще одна «ненормальная» линия)
UPD: закрыт ли вопрос с «гауссианой» у немцев?
Нет, и вот почему: когда точек мало (а их мало), тесты на нормальность выдают могут выдавать сущую дичь:
shapiro.test(1:50)
Shapiro-Wilk normality test
W = 0.9556, p-value = 0.05809
lillie.test(1:50)
Lilliefors (Kolmogorov-Smirnov) normality test
D = 0.0649, p-value = 0.8633
Это значит что для простой последовательности чисел от 1 до 50 таким образом отвергнуть гипотезу о нормальности нельзя. Северный Рейн-Вестфалия - это, к слову, самое большое количество точек (аж 64).
UPD: пользователь ixodus (см. комментарии) уделил внимание более высокому уровню агрегации данных по германии (округа вместо участков). этот факт, в принципе, может повлиять на распределение в масштабах страны, если разброс явки по участкам в пределах округа достаточно велик и действительно случаен. начиная от примерно 10 процентов (что, справедливости ради, по сравнению с рф довольно мало) пик слева начинает пропадать. впрочем, распределение не становится ни нормальным, ни логит-нормальным, даже когда размазано до полной утраты всяких деталей.
на корреляцию между явкой и голосами увеличение разброса даже в совершенно лашадиных масштабах никак существенно не влияет.
2.1 Зависимость голосов за какую-либо партию от явки
Ровно таким же образом голоса за какую-либо партию могут зависеть от явки избирателей. Те же выборы в бундестаг, зависимость от явки голосов за ХДС+ХСС (синим) и ПДС+СвДП+ЗЕЛЕНЫЕ+СДПГ (зеленым) (доля от общего числа избирателей в округе)
(количество голосов за партии/общее число избирателей в округе) от явки
Estimate Std. Error t value Pr(>|t|)
1.4333 0.1438 9.966 < 2e-16 ***
-1.3380 0.1460 -9.165 <2e-16 ***
![](http://pics.livejournal.com/jemmybutton/pic/00017exk/s640x480)
(количество голосов за партии/количество проголосовавших) от явки
UPD: корреляция между явкой и голосами по землям
![](http://pics.livejournal.com/jemmybutton/pic/00027ep6)
![](http://pics.livejournal.com/jemmybutton/pic/000287yp)
Слева - ХДС+ХСС, справа - СДПГ. Красным отмечены те линии, которые отражают значимую (p<0.05) линейную зависимость. Опять же, для определенного ответа выборки слишком маленькие. Тут тоже земли больше 10 округов. Две красные линии на графике про ХДС+ХСС - это Берлин и Северный Рейн-Вестфалия. Три красные на графике про СДПГ - Берлин, Северный Рейн-Вестфалия и Шлезвиг-Гольштейн (если включить с 10 округами, будет еще одна красная линия в том же направлении).
![](http://pics.livejournal.com/jemmybutton/pic/0002b2sk)
![](http://pics.livejournal.com/jemmybutton/pic/0002cra5)
Слева - две земли со значимыми корреляциями для ХДС+ХСС, справа - три для СДПГ
![](http://pics.livejournal.com/jemmybutton/pic/0002dqz3)
![](http://pics.livejournal.com/jemmybutton/pic/0002ehcx)
![](http://pics.livejournal.com/jemmybutton/pic/0002f5t8)
Слева - все земли, кроме перечисленных для ХДС+ХСС, справа - для СДПГ. p = 2.20e-15 и p = 7.90e-05
соответственно. Если убрать земли, где меньше 10 округов, то для ХДС+ХСС p = 4.422e-15, для СДПГ p = 0.0001248
Даже если убрать кроме перечисленных еще и все земли, где средняя явка < 78 (последняя картинка), для ХДС+ХСС все равно p = 0.0133 и p = 0.010961 для СДПГ (что, как считается, достаточно, чтобы говорить о значимой связи)
UPD: тут для британии более наглядный и качественный разбор
http://users.livejournal.com/_ab_/139002.html#cutid1тут для израиля
http://levrrr.livejournal.com/31427.htmlДаже стало интересно, а где не так?
2. Пики на «красивых» числах
Это на вид очень хороший аргумент, который и правда сложно связать с какими-то «естественными» процессами. Поэтому резонно проинспектировать и другие партии на предмет таких аномалий. Выборы в думу 2011 (сырые данные отсюда
http://hist-kai.livejournal.com/243639.html, шаг в 0.1%, каждый процент помечен бледненькой такой линеечкой)
![](http://pics.livejournal.com/jemmybutton/pic/0001haa8)
![](http://pics.livejournal.com/jemmybutton/pic/0001k7d7)
Количество участков от доли голосов за партию. Эти пики на дробях похожи на какую-то херню, может где-то что-то налажал опять.
UPD: про дроби
вот распределение для СР в окрестностях 1/7. шаг = 0.005% в середине 1/7
![](http://pics.livejournal.com/jemmybutton/pic/0001ph77)
количество участков от процента СР
![](http://pics.livejournal.com/jemmybutton/pic/0001q45h)
явка на тех участках, где голоса за СР в окрестности 1/7
![](http://pics.livejournal.com/jemmybutton/pic/0001rc00)
голоса за ЕР участках, где голоса за СР в окрестности 1/7
Не вижу для тех участков, где странная доля голосов за СР никаких безумных аномалий для явки и голосов за ЕР. Что это может значить - понятия не имею, но интересно. Число проголосовавших на всех этих участках нацело делится на 7 (7-1799), так что, видимо, пики на таких значениях - просто артефакт. другие пики, включая пик на 50 за ЕР очень похожи в этом отношении.
UPD: Откуда могут браться пики на «круглых» цифрах
Пока не придумал как это доходчиво объяснить, поэтому просто приведу картинки (если коротко, то это вроде как связано с делимостью на простые числа и тем, что их соотношения дают пики на целых долях всего диапазона, как флажолеты на струне, к примеру).
+UPD: Можно объяснить так: из набора случайных целых чисел, принимающих значение от нуля до n, случайно сочетаемых в обыкновенной дроби, больше способов получить, скажем, ровно 1/7, 1/2 или 3/4, чем, например, 11/70, 201/400 или 61/80
![](http://pics.livejournal.com/jemmybutton/pic/0001swbd)
это распределение для отношения двух равномерно распределенных целых случайных величин x и y.
x - от одного до 800 (чуть больше среднего участка), y - произвольная доля от x (округленное до целого).
> sample(800, 1000000, replace = TRUE) -> x$x
> sample(10000, 100000, replace = TRUE)/10000 -> x$y
> x$y <- round(x$x*x$y)
> hist(x$y/x$x, breaks = 200)
если убрать «участки» с x<100 пики уменьшаются, но не пропадают.
![](http://pics.livejournal.com/jemmybutton/pic/0001t4ka)
если ограничить значения y (в данном случае y < 1/2x, что ближе к реальности), пики становятся сильно более выраженными (шкала внизу до 0,5, обращаю внимание)
так-то
UPD: та же модель, только для распределения, похожего на настоящее
итак, вот распределение сгенерированных случайных чисел, имитирующих распределение количества явившихся на участки людей:
![](http://pics.livejournal.com/jemmybutton/pic/0001xqq1)
вот распределение, имитирующее распределение голосов за ер (сглаженное, без пиков, здесь и далее шаг в 0,2%):
![](http://pics.livejournal.com/jemmybutton/pic/0001ydyk)
далее я помножил «явившихся» из распределения сверху на «голоса» из распределения снизу, округлил до целых чисел и снова поделил на «явившихся» (можно было просто сымитировать распределение голосов за ер, но я что-то не подумал об этом). вот что из этого получилось:
![](http://pics.livejournal.com/jemmybutton/pic/0001zhd7)
убираем «участки» где «явилось» менее 400:
![](http://pics.livejournal.com/jemmybutton/pic/00020bzb)
по-мойму так красота.
UPD: проверка на настоящих данных
Для проверки я добавил случайный шум с амплитудой в 1 голос к числу проголосовавших и к голосам за ер.
до:
![](http://pics.livejournal.com/jemmybutton/pic/000214g0)
после:
![](http://pics.livejournal.com/jemmybutton/pic/00023yg6)
более или менее очевидную фигню мне видно только на 75 и 85.
убрал две картинки с распределением голосов за «остальных». они, по понятным причинам, такие же, как и за ЕР, но в зеркальном отражении
Пики не пропадают, если отбросить маленькие участки (кое-кто считает это аргументом против чисто стохастических объяснений), потому, что имеет значение не только размер участка, но и количество участков относительно их размера.
UPD: тем, кого это не убедило
и правильно что не убедило, поэтому призываю проверить все самостоятельно. если нигде тут нет лажи (а на этот предмет было бы здорово, если бы кто-нибудь проверил это дело независимо), то пики на дробях с небольшим знаменателем возникают неизбежно при таких данных (почему, интересно, в настоящих данных они такие маленькие? аномалия?) и чтобы найти настоящие аномалии, нужно их устранить (например, добавив шум). таким образом, думаю, что тем, кто действительно ищет фальсификации (и сам почему-то до такого объяснения не дошел), я, наверное, помог, а тем кто уже напечатал плакатов с, вероятно, артефактами - увы. и что за фигня творится на 75% и 85% и, возможно, в районе 90-100%% по прежнему не ясно
Обращаю еще раз внимание, что так объясняются только «узкие» пики с одинаковыми значениями (=1/2; = 1/3; =1/7 и т. п.), которые видны только при достаточно маленьком шаге. если пик широкий, это объяснение не подходит.
UPD: Спасибо Dmitry Kobak, он провел проверку этих результатов
выходит, что что-то исчезает, а что-то остается (начиная от 65), а у того что осталось вроде можно найти прописку. Словом, рекомендую
http://kobak.livejournal.com/102646.html#cutid1 Словом, про пики резюмирую так (а то одним мерещится что тут написано будто выкладки сверху объясняют все пики, а другим - что я скрываю, что на самом деле они ничего не объясняют):
![](http://pics.livejournal.com/jemmybutton/pic/0003cst1)
тут была неинтересная фигня
Может у кого есть для «хороших людей» годное объяснение?