Обычно на диаграмме рассеяния участках в координатах явка-результат достоверные участки образуют относительно плотный кластер (ядро кометы), а фальсифицированные участки убегают от него в правый верхний угол диаграммы (хвост кометы). Так что выделение основного кластера диаграммы может быть положено в основу реконструкции истинных итогов выборов.
К сожалению, у этого подхода есть ряд недостатков. Процедура выделения кластера очень сложна, причём не только содержательно (я не видел, чтобы кто-то корректно выделил кластер), но и вычислительно (речь идёт о серьёзном программировании и многих часах счёта). Кроме того, в случае достаточно масштабных фальсификаций в качестве основного кластера любой формальный алгоритм определит кластер фальсифицированных, а не достоверных точек. Такова была ситуация в 2020 г., такова она и в 2024 г.
Нужна предобработка данных, частично элиминирующая ту их часть, которая, скорее всего, фальсифицирована. Можно было бы просто дискриминировать участки со слишком высокими явкой и/или результатом. Но это не только неспортивно, но и ставит вопросы о выборе порогов отсечения. Честнее будет исключить целиком те субъекты, где контроль за чистотой выборов был столь плох, что их итоги там тупо выдумывались.
Из анализа исключены все участки тех субъектов, для которых в хотя бы одном
тесте на избыток круглых чисел или в
тестах на избыток/недостаток любых цифр в конце промилле явки/результата показали α·N ≥ 1, т.е. такой результат, который в среднем по разу может возникнуть естественным путём в каждом тесте. Это - избыточная жёсткость, поскольку есть риск выкинуть и несколько субъектов, где не рисовали. Но при том уровне фальсификаций, который мы имеем ныне, более мягкий подход не позволил достаточно проредить хвост кометы, чтобы кластер не находился где-то в нём.
Кроме 4 невнятных субъектов и зарубежья из рассмотрения исключён 41 субъект (суффиксы геокодов
ISO 3166-2): KDA, MOS, ROS, DA, TA, SAM, NIZ, SPE, STA, BRY, LEN, BA, BEL, YAN, TUL, VOR, KK, PNZ, TVE, CHE, LIP, TAM, KL, CR, TYU, KEM, TY, ORE, CE, VGG, PRI, SAK, MUR, NGR, YEV, OMS, KAM, IRK, AST, PER, KHM. Сочтены допустимыми 44 субъекта: IVA, RYA, ORL, KO, TOM, KYA, AD, PSK, KHA, NVS, YAR, SA, MO, BU, ALT, KRS, MOW, ME, VLG, AMU, KGD, AL, KOS, KGN, KIR, SMO, KB, NEN, UD, ULY, ZAB, KC, ARK, CU, SVE, KR, CHU, VLA, SE, KLU, MAG, SAR, SEV, IN, к которым относятся 30 538 участков. Поправка на дэг выполнена по
схеме 2.
Теперь для допустимых субъектов надо выделить основной кластер.
Итак, имеются p точек x = (t, r)′, соответствующих избирательным участкам. Координатами являются общая явка избирателей t и результат кандидата власти r. Как ожидается, некоторые q ≤ p точек достоверны, тогда как остальные - аутлаеры, подлежащие элиминации. Результатом реконструкции будет среднее положение достоверных точек m = 〈x〉. Для их выявления минимизируется детерминант |S| ковариационной матрицы S = 〈ξ·ξ′〉 множества достоверных точек, где ξ = x−m.
Процедура опирается на понятие о расстоянии Махаланобиса δ(x) = (ξ′·S−1·ξ)½. Оно служит мерой удалённости между векторами случайных величин, учитывающей корреляции между ними. Вручную обращая ковариационную матрицу, находим δ2(x)·|S| = Dr·τ2 − 2C·τδ + Dt·δ2, где τ = t−〈t〉 и ρ = r−〈r〉 - центрированные значения координат, Dt = 〈τ2〉, Dr = 〈ρ2〉 и C = 〈τρ〉 - их дисперсии и ковариация, являющиеся элементами ковариационной матрицы, а |S| = Dt·Dr − C2 - её детерминант, собственно, и подлежащий минимизации. Это делается посредством следующего итерационного алгоритма.
В начале очередного шага каждая точка имеет какую-то оценку расстояния Махаланобиса до центра кластера (для первого шага - случайную). Далее выбираются q точек, характеризующихся наименьшими δ(x). И для них рассчитываются новые среднее положение m и ковариационная матрица S, на основе которых получаются и новые оценки расстояний. После чего шаг повторяется - до тех пор, пока |S| не перестанет убывать (или не зациклится - в этом случае результатом считается место в цикле, дающее минимальный детерминант).
Результат работы алгоритма может зависеть от выбора случайных расстояний, использовавшихся на первом шаге. Поэтому описанная процедура выполняется многократно (обычно достаточно нескольких десятков попыток) и сохраняется результат с наименьшим |S|.
Алгоритм на выходе даёт эллипс наименьшей площади V ~ |S|½, содержащий q достоверных точек. Соответственно, на входе алгоритм предполагает эллиптически симметричное унимодальное распределение точек с плотностью u(x) = g(δ2(x)) / V, где g - некоторая монотонно убывающая функция (в частности, если g - экспонента, то распределение u(x) - гауссово). Вообще говоря, что унимодальность является в некотором смысле более сильным условием, чем симметричность, поскольку вблизи моды почти любое распределение приблизительно симметрично. Но в выделенном кластере симметричность распределения точек требует проверки, которая и положена в основу критерия для определения оптимального числа достоверных точек q. А полагать q = p/2 - грубая (хотя и понятная) ошибка!
Асимметрию точек кластера уместно характеризовать, сравнивая взвешенное среднее w = 〈δ2(x)·x〉 / 2 (знаменатель здесь - размерность пространства) с обычным средним m = 〈x〉. Поскольку для симметричного распределения эти вектора должны совпадать, при реконструкции следует использовать значение q* = arg minq{δ(w)}.
В силу того, что электоральные фальсификации носят в той или иной мере организованный характер, на диаграмме рассеяния могут присутствовать небольшие плотные кластеры точек, соответствующих участкам с фальсифицированными итогами. Поэтому при q << p алгоритм может находить центр кластера не достоверных, а фальсифицированных точек. И если он окажется наиболее симметричным, реконструкция будет ошибочной. Скорее всего, исключение субъектов с выдуманными данными снимает этот риск, но всё же, чтобы избежать его наверняка, применяется следующая процедура.
Коль скоро в результате фальсификаций и общая явка t, и результат власти r увеличиваются, имеются такие qt и qr, при которых реконструированные значения этих величин минимальны. Потребуем выполнения дополнительного условия q* ≥ max{qt;qr}. Иначе говоря, если добавление точек в кластер приводит к более агрессивной (указывающей на более масштабные фальсификации) реконструкции хотя бы одной электоральной характеристики, значит, мы имеем дело с кластером фальсифицированных точек и параметр q необходимо увеличить.
Побочным результатом реконструкции является проверка гипотезы о независимости явки и результата. Для точек кластера коэффициент корреляции этих величин R = C / (Dt·Dr)½. Ожидается, что он будет близок к нулю. Однако на практике он обычно оказывается слегка положительным из-за попадания в кластер некоторого количества точек, соответствующих фальсифицированным участкам, где общая явка и результат власти завышаются одновременно.
А теперь - перейдём от терии к практике.
Первый шаг - определение доли анализируемых точек q/p в основном кластере. Рассмотрение зависимости от неё положения его центра даёт минимальные координаты центра кластера tmin ≈ 64,5% и rmin ≈ 82,1%, которые достигаются при qt/p ≈ 4,2% и qr/p ≈ 6,9% соответственно. Далее находим q*/p ≈ 12,8% (а вовсе не 50%).
Центр соответствующего кластера даёт истинные общую явку tmin ≈ 64,8% и результат власти rmin ≈ 82,3%. Соответствующие значения, полученные с помощью
интегрального метода Шпилькина, равны 67,3% и 81,5%, т.е. явка реконструирована заметно (несколько процентных пунктов - это много) более агрессивно, а результат - менее.
Реконструкции могут различаться по двум причинам: использование разного набора участков либо наличие корреляции между явкой и результатом. Коэффициент их корреляции для точек ядра R = 0,565, что заметно больше, чем наблюдалось для предыдущих электоральных мероприятий. Если эта корреляция - естественная, мы не может доверять методу Шпилькина. Но её самое высокое значение почему-то возникло именно на самых нечестных выборах. Так что, скорее, причина в ином: в основном кластере остаётся множество фальсифицированных участков, которые и порождают столь высокую корреляцию координат. Доводом в пользу этого вывода служит и то, что из рассмотрения не были исключены (а за что?), в частности, KB, KC, SE и IN, известные своей исключительной электоральной честностью.
Средние по двум методам реконструкции: явка - 65,9%, результат - 81,8%.