Тут какая-то каша следующего содержания:
0. Коротко
1.1 «ненормальное» распределение явки на выборах в бундестаг 2002 (придираться к округам вместо участков и географии)
1.2 связь между голосами за хдс+хсс и явкой на тех же выборах (то же)
2. пики на красивых числах (частью объяснены, частью - нет)
3. коибы
4. соцопросы и экзит-поллы (тоже ничего толком нет)
5. недействительные бюллетени + партии с небольшим числом голосов и их распределения + незатейливая модель вбросов (есть подозрение что рост явки за счет вбросов должен был бы привести к определенному искажению распределений других партий)
6. на каком уровне в основном портится распределение и появляется корреляция
7. данные по переписанным протоколам с kartaitogov и ruelect (непохоже что вбросы так уж сильно влияют на явку)
8. для смеха еще зависимость результата от израсходованных средств
9. модели зависимости голосов за ер от явки
10. модели, касающиеся распределения
11. списочный состав и перепись населения
0. Коротко
Никаких серьезных доводов в пользу «нормального» распределения мне найти не удалось, равно как никаких моделей, показывающих как именно должно меняться распределение разных партий в случае фальсификаций того или иного свойства. Мои неловкие попытки разобраться (п. 5) с энтузиазмом не столкнулись, так что их не считаю (
http://lleo.me/dnevnik/2011/12/13.html или
http://rksmb.org/get.php?5011 это вот еще хуже чем у меня модели, так что их уж совсем не считаю). Так что все истории про «Гаусса против Чурова» пока, как мне кажется, чистой воды пропаганда (впрочем, ничего кроме фраз и плакатегов на этом толком и не строится). Единственная более или менее обсосанная особенность распределения - пики на «красивых числах», за вычетом кое-каких артефактов (см. конец п. 2) не является чем-то повсеместным (насколько можно судить).
Корреляция между явкой и голосами за партию (ЕР), предположительно возникающая в следствие фальсификаций, встречается и в других странах (п. 1 и ссылки внизу него) (тот факт, что по другим странам нет данных по участкам не отменяет вопроса о наличии самой корреляции, а уровень, на котором она возникает остается вопросом открытым, как и УИКи в качестве «единицы лжи»), где, по общему мнению, их происхождение не связано с какими-либо махинациями. Приписки за ЕР, как один из потенциальных источников корреляции оправдывают себя (
http://vladislav-01.livejournal.com/5366.html), но далеко не везде (см. п. 7), с другой стороны, положительная корреляция между голосами за ЕР существует как по предположительно более или менее «чистым» участках с КОИБ, как минимум по Москве (п. 3), так и по протоколам без «переписок» (п. 7)
Таким образом, несмотря на вполне правдоподобные и многочисленные данные по конкретным фактам фальсификаций (напр.
ruelect.com) хорошего моста между ними и какими-либо общими картинками в масштабах страны пока нет, а то что есть - требует серьезной проверки и уж точно не может служить твердым ориентиром в оценке масштабов фальсификаций.
1, 2. Про Германию и пики на «красивых» числах скинул сюда:
http://jemmybutton.livejournal.com/1638.html 3. КОИБы
Для начала Москва:
Имеет место значимая положительная корреляция (p < 0.001, критерий Спирмана) по участкам с КОИБами
4. Соцопросы и экзит-поллы
Этот вопрос более подробно распишу, наверное, позднее. Пока просто общий фон.
Это доля голосов за ЕР от общего числа определившихся с партией, по данным соцопросов перед выборами (ФОМ, ВЦИОМ, Левада-центр, Башкирова и партнеры, ИСИ) от количества месяцев до выборов (признаться честно, стянул из википедии
http://ru.wikipedia.org/wiki/Выборы_в_Государственную_думу_(2011)). Последние три точки - это три экзит-полла (ВЦИОМ, ИСИ, та что в середине - апокрифические 43 процента от ФОМ). Красная черта - результат подсчетов.
Либо все эти опросы сфальсифицированы тоже, либо можно как-то оценить в свете их результатов вероятность того, что итоговый результат, а также все выкладки сторонников теорий массовой фальсификации, соответствуют действительности.
UPD: да-да, в москве экзит-поллы у фом и иси (про вциом не знаю) сильно не сошлись с итоговыми результатами. этот факт говорит в пользу того чтобы доверять данным этих двух организаций.
UPD: Пока очень грубо.
Ниже результаты последних соцопросов и экзит-поллов:
доля потенциальных голосов за ер от количества месяцев до выборов (плюс-минус полшапки).
последние три точки - экзит-поллы. в форме доверительных интервалов тут изображена доля неопределившихся в опросах и отказавшихся отвечать в экзит-поллах (сколько отказалось отвечать в экзит-полле иси (нижний) не указано, поэтому взял по минимуму - 20 процентов, для фом и вциом это 30 и 23 соответственно). красная линия - официальный результат, синяя и зеленая - подсчеты, приведенные в этой записи
http://kobak.livejournal.com/101512.html (38 и 34 процента соответственно).
справа то же, но без вциом.
если не делать смелых предположений о распределении голосов среди неопределившихся (или отказавшихся отвечать, в случае экзит-поллов), то принципиально с результатами экзит-поллов неплохо на вид совместимы все три оценки, а с результатами последних опросов лучше всего совместим официальный результат.
два опроса с большим количеством неопределившихся - это иси и «башкирова и партнеры». опросы, в диапазон которых попадает оценка с более оптимистичной коррекцией - фом (20 ноября) и иси (11-17 октября).
конечно, у опросов и экзит-поллов (если им верить) есть и собственная погрешность, которую тоже нужно учитывать, но этим пока можно пренебречь. + еще одно важное допущение: если считать что выборка репрезентативна, то на выборы пошли не все, кто определился с кандидатом, а распределение прогульщиков по партиям нам тоже неизвестно, так что к интервалам, в принципе, можно накинуть еще по полтора десятка процентов в среднем.
(
http://slon.ru/russia/predvybornye_prognozy_razvyazali_ruki_falsifikatoram-722908.xhtml аргументация вида «предсказание правильное - значит все подстроено, неправильное - тем более» выглядит, мягко говоря, спорно)
5. Недействительные бюллетени + партии с небольшим числом голосов
Возможно где-то уже было, не знаю. Если принять, что значительная часть голосов за ЕР приписывается или вбрасывается, мы должны видеть странности не только в распределении явки, но и в распределении доли недействительных бюллетеней от общего числа заполненных. А именно - перекос в меньшую сторону. Так ли это?
Количество участков от доли недействительных бюллетений (от общего числа проголосовавших)
Сверху - распределение «как есть». Снизу - убраны все участки, где нет ни одного испорченного бюллетеня. Распределение снизу лично мне на вид нравится, а пик на нуле на верхнем выглядит подозрительно. если убрать все участки, где никто и ничего не испортил, то получится 46 за ЕР, а если посчитать только их - 81.
убрал взвешенную гистограмму
В зависимостях доли недействительных бюллетеней от голосов за партию пока ничего особо интересного не нашел. Наврал, чем меньше испорченных, тем таки больше за ЕР. правда, масштабы пока неясны.
Отсекаем участки с маленькой долей недействительных бюллетеней.
количество голосов за ер от доли недействительных бюллетеней, до которой происходит отсечение. минимум слева примерно равен 40%
и аналогичная картинка для кпрф. максимум на 21
что бы это могло значить? буквально это можно понять так: ер обязана значительным числом голосов участкам, с долей недействительных бюллетеней до 2 процентов (таких большинство), а кпрф (и у других выглядит похоже) - от двух до пяти, причем это, по-видимому, не связано с увеличением числа участков с небольшой долей недействительных бюллетеней (их распределение не выглядит странно).
UPD: распределения логитов (см. ссылки в первом разделе)
Это распределения логитов ( log(x/(1-x)) ) доль голосов за все партии и недействительных бюллетеней. Синим - ЕР, красным - недействительные бюллетени. Ноль соответствует 50 процентам. + важно: тут не учитываются участки, где у любой партии ровно 0 или ровно 100 процентов и данные не взвешены
Если бы ЕР была обязана своим правым плечом именно вбросам и припискам (отчего, как предполагают, растет и явка), то следовало бы ожидать, что у остальных партий и недействительных бюллетеней вырастет левое плечо и распределение логитов величин везде окажется одинаково несимметричным.
Я взял тыщу раз по 50 случайных участков и каждый раз провел тест на нормальность для распределения каждой партии. Вот медианы полученных значений p (критерий Лиллиефорса) и коэффициенты асимметрии через запятую (довольно условно, но все же). UPD: хотя если взвесить по количеству проголосовавших, то расколбашивает довольно сильно (второе число через запятую), но даже если включить места, где по ноль голосов, со значением 0.01, то все равно асимметрия НБ, ПР, Я и ПД заметно ниже чем у остальных. Фиг поймешь, конечно, может это ничего и не значит.
Недействительные - 0.15, -0.39, -2.14
СР - < 0.01, -1.94, -4.15
ЛДПР - < 0.01, -2.02, -3.83
ПР - 0.08, -0.73, -2.4
КПРФ - < 0.01, -2.03, -4.94
Яблоко - 0.42, -0.28, -2.99
ЕР - < 0.01, 1.70, 5.59
ПД - 0.31, -0.10, -2.29
UPD: если смотреть по отдельным регионам, то асимметрия в среднем около нуля для недействительных бюллетеней если не взвешивать, и аж минус полтора и всегда меньше нуля если взвешивать. (вообще может я неправильно взвешиваю?)
UPD: простая модель
ну, значит, простецкая модель для трех партий, получается такое вот распределение:
количество «участков» от доли «голосов». красным будет П1 (очень мало «голосов»), синим П2 (нормально «голосов») и зеленым П3 (много «голосов»)
коэффициенты асимметрии для распределений логитов крохотулечные: 0.03, 0.02 и -0.03
теперь сымитируем «вброс», добавив случайным образом к отдельным «участкам» для П3 некое случайное количество «голосов»:
коэффициенты асимметрии для логитов стали для П1 - -2.9, для П2 - -2.6 и для П3 - +2.6
модель, конечно, очень условная, но отсюда видно, что распредление логитов должно портиться (если считать что по умолчанию оно нормальное) примерно одинаково у всех партий (и даже больше у маленьких) в случае вброса, а это в рф, судя по всему, не совсем так (или даже совсем не так). справа - зависимость «голосов» за п3 от «явки»
UPD: перенос голосов с повышением доли ер, судя по данным ruelect, бывает сопряжен со вмешательством в число недействительных бюллетеней и чаще в большую сторону, но в целом, довольно редко. приписки же закономерно уменьшают долю недействительных бюллетеней. ну и плюс сочетания обоих вариантов
6. На каком уровне что происходит
Пока в общем. (Спасибо kobak, который попросил проделать это для Германии и ixodus, который в итоге не без пользы потроллил по поводу агрегированности данных)
Комиссий максимум 5 уровней от ЦИК до УИК, иногда меньше. В 59 СФ уровня 4 и в 25 их все 5. Ниже уровни считаются не сверху-вниз, а снизу-вверх, т. е. комиссии небольших субъектов федерации на одном уровне с комиссиями второго уровня больших.
В следующей таблице - доля комиссий в ведении которых между явкой на участках и голосами за ЕР есть значимая корреляция (с двумя уровнями значимости). Чтобы точно не зависеть от распределения, использован коэффициент Спирмана.
1234p<0.05100% 100% 88% 49%p<0.001100%100%81%24%
Интересно, что результат ЕР по комиссиям последних двух уровней, где нет значимой корреляции (p>0,05) (если я ничего не напутал), не безумно сильно отличается от результата по комиссиям, где корреляция есть (p<0,05). На 3-м уровне 50% и 42%, на 4-м 52% и 46% соответственно.
А здесь - квартили значений коэффициента асимметрии распределения логита явки (эээ) на разных уровнях (первый уровень - страна, поэтому значение одно):12340%2,34 0,55 -0,34 -3,6425%2,342,151,810,3250%2,342,802,810,9575%2,343,643,502,22100% 2,344,567,606,68
Тут тоже прикольно (если, опять же, ничего не напутал): на последних двух уровнях, там где коэффициент асимметрии меньше единицы, результат ЕР выше, то есть там, где больше голосов за ЕР, распределение наверняка не похоже на горб с толстым хвостом справа, как по всей стране. Правда, конечно, это не значит что оно там нормальное (логит-нормальное), это надо еще проверять. Ну и плюс к тому, надо взвешивать данные, а тут КА невзвешенный. Та же фигня и с тестом на нормальность (там, где тест не проходит, результат ЕР ниже), но это, как и для Германии, очень условно.
7. Переписанные протоколы по данным kartaitogov и ruelect
решил тут посмотреть (наверняка уже даже не десятый), где на графике голоса за ер - явка находятся участки, в которых, если верить фотографиям протоколов, переписаны результаты (
http://www.kartaitogov.ru/diff).
Москва (upd: переправил на
ruelect.com). На картинке - как изменились результаты (красным) по сравнению со сканами протоколов (зеленым)
upd: распределения недействительных бюллетеней для Москвы
синим - КОИБы, зеленым - протоколы, красным - протоколы после переписки, черным - все данные по Москве.
Санкт-Петербург (upd: переправил на ruelect.com) На картинке - то же, что и по Москве. upd: Вторая картинка - то же для ЛДПР (где голоса за ЛДПР растут). upd: Чтоб не искать: от региональной группы N81 (Санкт-Петербург) ЛДПР прошел Д. Волчек.
UPD: распределения для питера
Зеленым - протоколы с ruelect без правок, красным - те же протоколы с правками, черным - все участки Питера по данным ЦИК. Слева - явка, справа - голоса за ЕР.
Во-первых видно что в большинстве случаев тут явка тупо не повышается, во-вторых, что добавление голосов за ЕР не сильно связано с высоким процентом за ЕР (да и вообще, там есть много интересного, типа переписывания голосов от ер к кпрф и т. п. и куча просто чьих-то ляпов. хорошо б посмотреть на данные из сверенных протоколов без расхождений). Т. е. более или менее задокументированный способ фальсификации, видимо, не приводит к тем симптомам (кроме искажения распределения голосов за ЕР, наверное), на которых строятся основные оценки масштабов фальсификаций. С другой стороны, эти симптомы совсем небесспорны сами по себе.
UPD: пресловутая Нижегородская область для сравнения
видно что здесь ситуация заметно отличается. Справа - выборка участков, где растут голоса за КПРФ. (линия, идущая откуда-то справа - это прикольный глючный протокол
http://ruelect.com/ru/?panel=uik&uik_id=55539, где линии направлены вниз - это участки, где хорошо кпрф:
http://ruelect.com/ru/?panel=uik&uik_id=54796,
http://ruelect.com/ru/?panel=uik&uik_id=54930,
http://ruelect.com/ru/?panel=uik&uik_id=54971). В процентах КПРФ в Нижегородской области теряет, но в общей сложности прибавляет больше десяти тыщ голосов по тем протоколам, которые есть. upd: чтобы не искать, по региональной группе N50 (Нижегородская область - Арзамасская, Кстовская, где сосредоточены вроде почти все интересности) КПРФ прошли А. Тарнаев и Д. Вороненков.
UPD: что вообще происходит с протоколами по данным ruelect.com
Вот это, разница в явке и голосах за ЕР между данным на сайте цик и данными по протоколам, как это указано в таблице на ruelect:
видно, что чаще всего явка не меняется, хотя бывает, что и меняется вместе с голосами за ЕР.
Вот это гистограмма изменения явки для тех участков, где у ЕР увеличился процент (в таблице много участков, где этого не произошло):
опять тот же ноль во всей красе. Ну и тут я отрезал какие-то редкие участки, где явка сильно снизилась.
Если в цифрах, то в 46% случаев явка не менялась вообще, в 59% изменение явки до одного процента и в 62% случаев до пяти. Если учесть, что явка увеличивалась не одинаково (в Питере и Москве, видимо, не сильно, а вот в Нижегородской области весьма значительно), то ценность повышенной явки, как универсального показателя фальсификаций вызывает много сомнений.
Ну и для красоты: гистограмма увеличения голосов за ЕР (там, где оно было):
UPD:
В данных по «честным» протоколам от ruelect и по Москве и по всей РФ (тем регионам, что представлены в таблице) есть корреляция между явкой и голосами за ЕР. Спирман: rho = 0.4267094, p-value = 1.052e-05 и rho = 0.3119848, p-value < 2.2e-16 соответственно.
UPD: Не только наблюдатели, фотографирующие протоколы, но и бездушные КОИБы не смогли ничего сделать с корреляцией между явкой и голосами за ЕР в Москве, см. п. 3
UPD: Как меняется явка в регионах, по тем участкам, где увеличена доля голосов за ЕР по данным ruelect (в процентах, невзвешенное среднее по участкам), upd: а также значимость корреляции голосов за ер и явки (критерий Спирмана) там, где достаточно участков. Красным выделено там, где корреляция отрицательная. (естественно, и там и там только участки с ruelect)
UPD: kobak справедливо заметил, что корреляция может возникать и от смешения переписанных результатов с непереписанными. так как нам неизвестно в каком отношении они смешиваются, в качестве очень условной модели можно посмотреть корреляцию для данных вместе переписанных и непереписанных (последняя колонка).
Регион n+% за ЕР +% явка p прот. p ЦИК p вместеНижегородская область206 19.1620.830.012 *0.004 **<0.001 ***Город Санкт-Петербург7823.770.050.1330.2410.472Город Москва4518.762.070.003 **0.007 **0.001 ***Московская область3920.333.770.6410.016 *0.078 .Краснодарский край3816.642.350.5050.028 *0.043 *Ростовская область3726.12-0.530.009 **0.1380.149Самарская область3436.660.040.003 **0.170.111Костромская область2615.41-0.070.099 .0.5470.293Республика Коми2225.077.460.2670.1820.028 *Республика Тыва2111.2111.080.7450.320.088 .Саратовская область1315.727.680.1250.1570.013 *Пензенская область1219.531.860.2660.7830.886Тюменская область1214.09-1.30.079 .0.026 *0.02 *Ставропольский край711.382.770.7130.5560.387Челябинская область729.6416.730.7820.4440.115Республика Хакасия520.520.540.2330.083 .0.351Волгоградская область416.69-0.18NANANAРеспублика Татарстан (Татарстан)310.066.65NANANAРеспублика Башкортостан213.42-1.17NANANAИвановская область2108.06NANANAНовгородская область239.710NANANAИркутская область28.180NANANAБрянская область128.9322.94NANANAКемеровская область110.270NANANAЯрославская область10.02-0.06NANANAМурманская область124.780NANANAВладимирская область11.15-1.85NANANAАстраханская область125.180NANANAВоронежская область112.940NANANASignif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Видно что в большом количестве случаев явка в среднем меняется мало (не только Питер и Москва), а корреляция между голосами и явкой даже бывает ослабляется.
UPD: Разница между протоколами и данными ЦИК по разным партиям
СР, ЛДПР, ПР, КПРФ, Я, ПД по осям ординат и ЕР по оси абсцисс. Во сколько раз изменилось количество голосов за партию по данным с ruelect. Там есть глюки, так что часть точек - это как раз они. Много точек за ПР в Питере, где они, похоже, получили голосов вместе с ПД (участок где по данным ЦИК у ПД аж 700 голосов я тут подрезал) как все равно «непроходные» (типа такого
http://ruelect.com/ru/?panel=uik&uik_id=89293). Сходная, видимо, ситуация с «Яблоком» в Нижнем Новгороде (как-то так
http://ruelect.com/ru/?panel=uik&uik_id=54877)
8. Результат партии, как функция от объема израсходованных средств
Количество голосов от объема израсходованных средств (
http://cikrf.ru/banners/duma_2011/finance/sved_post_sredstv/sved_post_sredstv.pdf), шкала логарифмическая.
И в голосах на израсходованную тысячу рублей:
«Яблоко» - 13,40
«Патриоты России» - 139,21
ЛДПР - 14,75
«Правое Дело» - 54,67
КПРФ - 57,84
«Справедливая Россия» - 27,24
«Единая Россия» - 18,00
UPD: Аналогичная для выборов 2007 года:
9. Модели зависомости голосов за ЕР от явки
http://jemmybutton.livejournal.com/2147.html 10. Модели, касающиеся распределения
Отступление для очевидного замечания: всё, что мы тут видим на страшных графиках с пилами/расческами/драконьими хвостами и т. п. - это результат агрегации данных, а не что-то другое, значит все модели (что для естественных объяснений, что для фальсификационных) должны касаться именно агрегации данных. Это легко проверить: достаточно сравнить распределения данных УИКов по настоящим ТИКам и сравнить его с распределением УИКов, объединенных случайным образом, в группы, размером с настоящие ТИКи:
Зеленым - настоящие ТИКи, синим - случайные «ТИКи». Все корреляции явки с голосами при этом, конечно, никуда не деваются.
Само по себе это ничего не значит, разумеется, просто иллюстрация. Но сразу надо понимать, что данные могут быть агрегированы очень по-разному (вплоть до, большинству, наверное, известного
способа манипуляции результатами), адекватная модель может быть очень сложной (даже в самом честном случае) и нормальных условий для работы ЦПТ тут нет (два избирателя на одном участке не независимы, два участка в одном ТИКе не независимы и т. п.) и это совсем не странно.
Дальше - позднее
11. Списочный состав и перепись населения
начинаю фигачить сюда
http://jemmybutton.livejournal.com/1851.html