Электоральная статистика как популярная дисциплина начиналась с игры «Гаусс против Чурова». И хотя ни один реально используемый ныне алгоритм выявления фальсификаций или реконструкции истинных итогов выборов не предполагает нормального распределения каких-либо электоральных характеристик, в эту игру интересно поиграть и сейчас.
Аппроксимируем распределение официальных итогов в координатах «общая явка - результат власти» смесью 3 гауссиан, параметры которых будут описывать честно подведённые итоги, результаты физических манипуляций с бюллетенями и последствия тупого выдумывания. Такое деление участков на 3 кучки, насколько я знаю, придумал коллега
kobak (но, видимо, постил где-то в Твиттере вместо ЖЖ, так что исходного поста мне найти не удалось, и я не знаю, какая именно применялась аппроксимация).
Для приближения распределения смесью гауссиан я использую
SEM-алгоритм - стохастический алгоритм нахождения оценок максимального правдоподобия. Сначала (для избегания локальных экстремумов) выполняются 1000 итераций с долей точек, обрабатываемых стохастически, линейно убывающей со временем от 1 до 0, а затем - для лакировки результата - 100 итераций без стохастики. Участки с абсолютной явкой априори исключены из рассмотрения, поскольку в силу её фиктивного характера они образуют свою кучку (да ещё и сингулярную).
Нетривиальным является выбор весов, с которыми следует учитывать участки. При
выделении основного кластера диаграммы рассеяния участки считались равноценными, поскольку их размер учитывался косвенным образом: чем зашумлённее итоги выборов на участке из-за его малости, тем выше у него шансы оказаться за пределами кластера. Здесь же на результат влияют все участки, так что их размер надо учитывать явным образом. Проблема, однако, состоит в том, что явка и результат возникают как дроби с разными знаменателями. Поэтому невозможно ввести для точек веса так, чтобы взвешенные средние совпадали с отношением сумм числителей и знаменателей этих дробей. В качестве вынужденного компромисса вес был принят равным среднему геометрическому знаменателей - числа зарегистрированных избирателей и их участия в голосовании.
Вот так выглядит результат приближения для последних выборов.
Каждая гауссиана на диаграмме рассеяния обозначена эллипсом τ2 − 2R·τρ + ρ2 = 1−R2, где τ = (t−μt)/σt и ρ = (r−μr)/σr - приведённые координаты, а R = cov/σtσr - коэффициент корреляции явки t и результата r. Такой эллипс является двумерным аналогом одномерного доверительного интервала, концы которого отстоят от математического ожидания на одно среднеквадратичное отклонение.
Центр самого левого нижнего эллипса (μt;μr) может рассматриваться как реконструкция истинных итогов выборов. Её сравнение с результатами реконструкции с помощью
интегрального метода Шпилькина для выборов разных лет показывает в целом неплохое совпадение.
Для выборов 2004 г. метод Шпилькина,
как уже было сказано, завышает реконструированную явку, поэтому самое сильное отклонение вниз должно быть отнесено именно на его счёт. А вот самые заметные отклонения вверх для 2020-24 гг. предположительно обусловлены невозможностью вместить очень сильные фальсификации всего в две кучки.
Распространённость честного подсчёта и фальсификаций разного вида отчасти может быть охарактеризована весами соответствующих экспонент в их смеси, аппроксимирующей распределение.
Однако к такому способу представления результатов следует относится с известной осторожностью. Дело в том, что вторая кучка, связываемая с манипуляциями, при её перекрытии с первой может включать в себя и честные итоги. Как видно из следующего графика, эти кучки разошлись только с 2004 г.
Последним (по порядку рассмотрения, но не по значимости) параметром гауссиан является коэффициент корреляции явки и результата. Для неразделённых данных он очень высок, что само по себе считается признаком фальсификаций. Однако внутри каждой кучки эти характеристики для честных итогов почти не коррелируют, для результатов манипуляций коррелируют чуть сильнее и лишь последствия выдумывания приводят к какой-то корреляции (скорее всего, она обусловлена негауссовым характером распределения выдуманных чисел).