В качестве самостоятельного добавления к предыдущему сообщению не могу не прокомментировать
вновь и вновь всплывающее указание на фальсификацию выборов и вброс голосов пользу "Единой России". Эта тема поднималась как минимум 2 года назад, когда вышла любопытная
статья Сергея Шпилькина, с которой я по случаю ознакомился. Так как аргументация за прошедшее время не изменилась ни на йоту, есть смысл её рассмотреть в отдельной записи. Сразу хочу сказать, что никакого отношения к этой партии я не имею и всегда относил себя к её противникам. Более того, я нисколько не сомневаюсь, что какая-то часть голосов была незаконно приписана "ЕР".
В качестве убедительного довода, доказывающего выборные махинации, обычно приводят следующий график, показывающий наличие положительной связи между явкой избирателей и количеством голосов
Отсюда, svetlako. Надо сказать, такая аргументация поверхностна и довольно проста. Логически она сводится к следующему:
Если A имеет место фальсификация выборов, то имеем B вброс голосов в пользу "ЕР".
Если имеем B вброс голосов, то имеем C корреляцию между явкой и долей голосов в пользу "ЕР".
Отсюда делается вывод, раз имеем C (см. график), то A выборы сфальсифицированы.
Конечно, с логической точки зрения данный вывод несостоятелен. Но дело даже не в этом (пресловутая проблема индукции). В конце концов, никто не отрицает эмпирическую значимость наблюдённого факта С. Дело в практических выводах.
Каковы практические следствия этого тривиального замечания? Они следующие.
Представим себе, что у нас есть множество возможных альтернативных объяснений факта C, одинаково успешных (успешности достичь нетрудно, имея лишь один факт - график выше). Как мы вообще можем утверждать, что истинным объяснением является первое, а не второе или третье?
Формально - никак, у нас нет в распоряжении никакого убедительного критерия, позволяющего отсечь хотя бы часть правдоподобных объяснений. В этом и есть практическое значение упомянутой выше элементарной логической ошибки.
Набросать же множество правдоподобных объяснений не составит труда. Вот некоторые из них.
Возможное объяснение 1. Существование корреляции между политическими предпочтениями и вероятностью прийти на выборы и проголосовать. Например, сторонники т.н. оппозиции больше предрасположены не доверять сложившимся общественным институтам и просто игнорировать выборы. Достаточно посмотреть на тех, из чьих уст раздавались призывы бойкотировать выборы. Соответственно можно ожидать отрицательную корреляцию между кол-вом голосов, отданных оппозиционным партиям, и явкой. И наоборот, убеждённые сторонники "партии власти" скорее доверяют общественным институтам и более предрасположены к тому, чтобы прийти на участок и отдать свой голос.
Например, можно взять размер популяции "ЕР" в 5000, популяции "КПРФ" в 1000, склонность (вероятность) проголосовать за 50% и 25% соответственно и получить следующий замечательный график явки от количества голосов:
(см. также уточнение в конце)
В данном случае предполагая 50 избирательных участков с равным кол-вом избирателей.
Нетрудно убедиться, что без всяких вбросов и фальсификаций мы получили совершенно чёткую зависимость между явкой и долей голосов за гипотетическую "ЕР" (корреляция +0.94). Более того, разброс явки и доли проголосовавших за "ЕР" достаточно велики и вполне похожи на реальные. Всё дело в случайности и в двукратном различии в склонности к голосованию.
Конечно, я не утверждаю, что данная картина отражает действительность хоть в какой-то мере. И даже никаких оснований утверждать, что различие в склонности так велико, у меня нет. Но без дополнительных данных на этот вопрос ответить невозможно. Ясно только, что график зависимости числа голосов за "ЕР" от явки ровным счётом ничего не доказывает.
Возможное объяснение 2. Различия в других характеристиках голосующих популяций. Любое прозвучавшее утверждение о фальсификациях исходит из неявного предположения, что единственное различие между популяцией, голосующей за "ЕР", и популяцией, голосующей за оппозицию, заключается в только в размере популяции. Скажем, за "ЕР" в принципе могут проголосовать 30 млн. чел, за "КПРФ" - 15 млн, в остальном никаких отличий. На самом деле это совершенно не обязательно так и даже совсем не так (другой вопрос - в мере влияний этих различий).
Вообще наличие корреляции между двумя переменными не говорит о наличии между ними связи. Положительный наклон на графике может быть вызван не наличием прямой связи между явкой и популярностью "ЕР", а наличием связи между каким-нибудь третьим фактором и явкой. Это элементарное статистическое знание совершенно забывается в дискуссиях, которыми заполнились журналы. Таких факторов может быть множество, например, это могут быть различия между сельским и городским населением. Различия в возрастной и половой структуре населения между избирательными участками. И т.п.
Чуть большего внимания заслуживает следующий график, приведённый в статье Шпилькина за 2009 г.
Шпилькин совершенно основательно указывает на странность в графике (наличие двух вершин и "плеча"). Из этой странности он делает вывод, что все голоса, которые не укладываются в нормальное распределение со средним в районе 50% явки, являются вбросами. Вывод занимательный, но на чём он основан? Абсолютно ни на чём. Можно с чистым сердцем согласиться с тем, что правый 100% пик является вбросом (в действительности скорее всего данными Чечни, Дагестана, Татарстана и т.п.), конечно, не полностью, но по крайней мере в значительной части. Но из чего следует, что участки с явкой более 75% (примерный хвост предполагаемого нормального распределения) являются именно вбросами? Как видим, аргументация Шпилькина по сути ничем не отличается от рассмотренной выше. И здесь же можно представить ситуацию разнородности в популяции, голосующей за "ЕР". Такая разнородность в принципе может дать рождение подобному распределению, вопрос только в причине её существования. Обязательно ли это вбросы? Очевидно, нет.
Из всего этого следует, что для доказательства фальсификации необходимо как минимум наличие дополнительного ряда фактов, позволяющих отсечь альтернативные предположения. В частности, данных, позволяющих проанализировать распределения голосов в пользу партий в зависимости от социальных характеристик и т.п.
Что касается "коррекции" Шпилькина, то максимум, на что она может претендовать - дать верхнюю оценку возможным искажениям результатов голосования из-за вбросов. Реальное значение искажений может быть где угодно между нулём и этой верхней оценкой. Практически доказать фальсификации на выборах можно на мой взгляд только с помощью exit polls, учитывая, что и они требуют некоторой корректировки.
Важное уточнение (из комментариев) На самом деле в моей симуляции реальная причина положительного наклона на графике - разница в размере групп за разные партии. В такой простой модели разница в склонности голосования не играет значения. Т.е. мы будем наблюдать положительный наклон графика количества (не доли!) голосов за победившую партию всегда, когда разница в реальной поддержке партий среди населения достаточно велика. Т.е. предположение о разнице в склонности проголосовать излишне, хотя оно почти наверняка потребуется, чтобы объяснить другие особенности, наблюдаемые в реальных данных.