чисто посмеяться (про Германию и пики на «красивых» числах): jemmybutton

jemmybutton

чисто посмеяться (про Германию и пики на «красивых» числах)

Dec 09, 2011 00:10

вычленил отсюда http://jemmybutton.livejournal.com/1359.html

1. Распределение участков по явке
Во-первых нормального распределения (распределения Гаусса) в случае когда случайная величина (в данном случае - явка) по определению принимает значения только в определенном диапазоне быть не может + нормальное распределение, вообще говоря, симметрично (то что проходит под названием «нормальное» меняет форму в зависимости от расположения на шкале и вообще интересно как себя должно вести вблизи нуля или единицы), тут надо говорить о чем-то вроде бета-распределения или логит-нормального распределения (не знаю как по-людски называется, но именно логит log(x/(1-x)) величины, а не саму величину анализируют для таких данных, насколько я понял, см., например, здесь или тут, upd: впрочем, логит-нормальное распределение мне не нравится, бета-распределение круче или SB Джонсона, может) (это все не очень важно (до поры), просто для справки любителям помянуть «гауссиану» к месту и не к месту). Во-вторых, причудливая форма распределения может объясняться неоднородностью электората. Для примера, вот распределение для выборов в бундестаг 2002 (данные отсюда http://www.bundeswahlleiter.de/en/bundestagswahlen/fruehere_bundestagswahlen/btw2002.html , только по избирательным округам).

плотность вероятности от явки (если шкалу заменить на количество округов, то вместо 20 будет где-то 60). да, выборка небольшая, но 300 значений для общего представления о распределении обычно вполне достаточно.

Небольшой пик слева (в районе 75), насколько можно судить, соответствует меньшей явке в Восточной Германии (впрочем, дело не только в этом, см. ниже). Распределение, следовательно, не обязано подчиняться каким-то определенным простым законом (и по определению не может быть «нормальным»)

UPD: тут люди говорят, что распределение нормальное, просто кривенькое, по причине малого количества точек.
нормальность распределения, вообще, проверяется не на глаз, а при помощи специальных критериев.

парочка вот (нулевая гипотеза - расределение под вопросом является нормальным).

Shapiro-Wilk normality test
W = 0.909, p-value = 7.397e-13

Lilliefors (Kolmogorov-Smirnov) normality test

D = 0.1667, p-value < 2.2e-16

около трехсот значений (звиняйте, данных по отдельным участкам найти не удалось) как правило уже вполне достаточно (вообще может даже многовато), чтобы результат не вызывал сомнений, а при таких значениях p и говорить не о чем. правда это ни о чем не говорит в любом случае.
Кстати, услышите что распределение где-то «нормальное» или «ненормальное», сразу требуйте результат проверки на нормальность. Правда да, на таких больших выборках это бессмысленно.
UPD: распределение по регионам и так ли все просто

распределения явки по отдельным землям. зеленым - те что прошли проверку на нормальность, красным - та что не прошла (а именно - Северный Рейн-Вестфалия, совсем не граница фрг и гдр, к слову). особого смысла тут искать не стоит, впрочем (с одной стороны выборки маленькие и тест на нормальность может показать все что угодно, с другой - на таких данных тест на нормальность вообще может показать все что угодно). Земли не все, а только те, где больше 10 округов (если включить с 10 округами, будет еще одна «ненормальная» линия)

UPD: закрыт ли вопрос с «гауссианой» у немцев?
Нет, и вот почему: когда точек мало (а их мало), тесты на нормальность выдают могут выдавать сущую дичь:

shapiro.test(1:50)
Shapiro-Wilk normality test
W = 0.9556, p-value = 0.05809

lillie.test(1:50)
Lilliefors (Kolmogorov-Smirnov) normality test
D = 0.0649, p-value = 0.8633

Это значит что для простой последовательности чисел от 1 до 50 таким образом отвергнуть гипотезу о нормальности нельзя. Северный Рейн-Вестфалия - это, к слову, самое большое количество точек (аж 64).

UPD: пользователь ixodus (см. комментарии) уделил внимание более высокому уровню агрегации данных по германии (округа вместо участков). этот факт, в принципе, может повлиять на распределение в масштабах страны, если разброс явки по участкам в пределах округа достаточно велик и действительно случаен. начиная от примерно 10 процентов (что, справедливости ради, по сравнению с рф довольно мало) пик слева начинает пропадать. впрочем, распределение не становится ни нормальным, ни логит-нормальным, даже когда размазано до полной утраты всяких деталей.
на корреляцию между явкой и голосами увеличение разброса даже в совершенно лашадиных масштабах никак существенно не влияет.
2.1 Зависимость голосов за какую-либо партию от явки
Ровно таким же образом голоса за какую-либо партию могут зависеть от явки избирателей. Те же выборы в бундестаг, зависимость от явки голосов за ХДС+ХСС (синим) и ПДС+СвДП+ЗЕЛЕНЫЕ+СДПГ (зеленым) (доля от общего числа избирателей в округе)

(количество голосов за партии/общее число избирателей в округе) от явки
Estimate Std. Error t value Pr(>|t|)
1.4333 0.1438 9.966 < 2e-16 ***
-1.3380 0.1460 -9.165 <2e-16 ***

(количество голосов за партии/количество проголосовавших) от явки

UPD: корреляция между явкой и голосами по землям

Слева - ХДС+ХСС, справа - СДПГ. Красным отмечены те линии, которые отражают значимую (p<0.05) линейную зависимость. Опять же, для определенного ответа выборки слишком маленькие. Тут тоже земли больше 10 округов. Две красные линии на графике про ХДС+ХСС - это Берлин и Северный Рейн-Вестфалия. Три красные на графике про СДПГ - Берлин, Северный Рейн-Вестфалия и Шлезвиг-Гольштейн (если включить с 10 округами, будет еще одна красная линия в том же направлении).

Слева - две земли со значимыми корреляциями для ХДС+ХСС, справа - три для СДПГ

Слева - все земли, кроме перечисленных для ХДС+ХСС, справа - для СДПГ. p = 2.20e-15 и p = 7.90e-05
соответственно. Если убрать земли, где меньше 10 округов, то для ХДС+ХСС p = 4.422e-15, для СДПГ p = 0.0001248
Даже если убрать кроме перечисленных еще и все земли, где средняя явка < 78 (последняя картинка), для ХДС+ХСС все равно p = 0.0133 и p = 0.010961 для СДПГ (что, как считается, достаточно, чтобы говорить о значимой связи)
UPD: тут для британии более наглядный и качественный разбор http://users.livejournal.com/_ab_/139002.html#cutid1
тут для израиля http://levrrr.livejournal.com/31427.html
Даже стало интересно, а где не так?

2. Пики на «красивых» числах
Это на вид очень хороший аргумент, который и правда сложно связать с какими-то «естественными» процессами. Поэтому резонно проинспектировать и другие партии на предмет таких аномалий. Выборы в думу 2011 (сырые данные отсюда http://hist-kai.livejournal.com/243639.html, шаг в 0.1%, каждый процент помечен бледненькой такой линеечкой)

Количество участков от доли голосов за партию. Эти пики на дробях похожи на какую-то херню, может где-то что-то налажал опять.

UPD: про дроби
вот распределение для СР в окрестностях 1/7. шаг = 0.005% в середине 1/7

количество участков от процента СР

явка на тех участках, где голоса за СР в окрестности 1/7

голоса за ЕР участках, где голоса за СР в окрестности 1/7

Не вижу для тех участков, где странная доля голосов за СР никаких безумных аномалий для явки и голосов за ЕР. Что это может значить - понятия не имею, но интересно. Число проголосовавших на всех этих участках нацело делится на 7 (7-1799), так что, видимо, пики на таких значениях - просто артефакт. другие пики, включая пик на 50 за ЕР очень похожи в этом отношении.

UPD: Откуда могут браться пики на «круглых» цифрах
Пока не придумал как это доходчиво объяснить, поэтому просто приведу картинки (если коротко, то это вроде как связано с делимостью на простые числа и тем, что их соотношения дают пики на целых долях всего диапазона, как флажолеты на струне, к примеру).
+UPD: Можно объяснить так: из набора случайных целых чисел, принимающих значение от нуля до n, случайно сочетаемых в обыкновенной дроби, больше способов получить, скажем, ровно 1/7, 1/2 или 3/4, чем, например, 11/70, 201/400 или 61/80

это распределение для отношения двух равномерно распределенных целых случайных величин x и y.
x - от одного до 800 (чуть больше среднего участка), y - произвольная доля от x (округленное до целого).

> sample(800, 1000000, replace = TRUE) -> x$x
> sample(10000, 100000, replace = TRUE)/10000 -> x$y
> x$y <- round(x$x*x$y)
> hist(x$y/x$x, breaks = 200)
если убрать «участки» с x<100 пики уменьшаются, но не пропадают.

если ограничить значения y (в данном случае y < 1/2x, что ближе к реальности), пики становятся сильно более выраженными (шкала внизу до 0,5, обращаю внимание)

так-то

UPD: та же модель, только для распределения, похожего на настоящее
итак, вот распределение сгенерированных случайных чисел, имитирующих распределение количества явившихся на участки людей:

вот распределение, имитирующее распределение голосов за ер (сглаженное, без пиков, здесь и далее шаг в 0,2%):

далее я помножил «явившихся» из распределения сверху на «голоса» из распределения снизу, округлил до целых чисел и снова поделил на «явившихся» (можно было просто сымитировать распределение голосов за ер, но я что-то не подумал об этом). вот что из этого получилось:

убираем «участки» где «явилось» менее 400:

по-мойму так красота.

UPD: проверка на настоящих данных
Для проверки я добавил случайный шум с амплитудой в 1 голос к числу проголосовавших и к голосам за ер.
до:

после:

более или менее очевидную фигню мне видно только на 75 и 85.

убрал две картинки с распределением голосов за «остальных». они, по понятным причинам, такие же, как и за ЕР, но в зеркальном отражении

Пики не пропадают, если отбросить маленькие участки (кое-кто считает это аргументом против чисто стохастических объяснений), потому, что имеет значение не только размер участка, но и количество участков относительно их размера.

UPD: тем, кого это не убедило
и правильно что не убедило, поэтому призываю проверить все самостоятельно. если нигде тут нет лажи (а на этот предмет было бы здорово, если бы кто-нибудь проверил это дело независимо), то пики на дробях с небольшим знаменателем возникают неизбежно при таких данных (почему, интересно, в настоящих данных они такие маленькие? аномалия?) и чтобы найти настоящие аномалии, нужно их устранить (например, добавив шум). таким образом, думаю, что тем, кто действительно ищет фальсификации (и сам почему-то до такого объяснения не дошел), я, наверное, помог, а тем кто уже напечатал плакатов с, вероятно, артефактами - увы. и что за фигня творится на 75% и 85% и, возможно, в районе 90-100%% по прежнему не ясно

Обращаю еще раз внимание, что так объясняются только «узкие» пики с одинаковыми значениями (=1/2; = 1/3; =1/7 и т. п.), которые видны только при достаточно маленьком шаге. если пик широкий, это объяснение не подходит.

UPD: Спасибо Dmitry Kobak, он провел проверку этих результатов
выходит, что что-то исчезает, а что-то остается (начиная от 65), а у того что осталось вроде можно найти прописку. Словом, рекомендую http://kobak.livejournal.com/102646.html#cutid1

Словом, про пики резюмирую так (а то одним мерещится что тут написано будто выкладки сверху объясняют все пики, а другим - что я скрываю, что на самом деле они ничего не объясняют):

тут была неинтересная фигня

Может у кого есть для «хороших людей» годное объяснение?

задрот, прокрастинация, выборы, gnu r, wishful thinking