Я вчера задавался вопросом, можно ли детектировать достаточно изощренный (случайный, с гиперболическим распределением) вброс на #выборыКС. Женя "rutsh" Крохалев подсказал, что можно. Можно попробовать скластеризовать голоса с помощью
EM-метода. Сам Женя с
его помощью отделил МММ-щиков. Я попробовал с его помощью поискать "вброс".
Я взял протокол, максимально сурово вычистил МММ ("deactivated" + список телефонов + слабая похожесть на список Мавроди). Потом запустил
EM.
Результат.
Два сильно разных кластера и правда нашлось. Вот они:
Вот график сравнения гистограмм:
В первом кластере оказалось 20953 человека, во втором - 42491.
Что это вообще такое, что значит?
Предполагаем, что голосовавшие двух типов (это единственное предположение). Каждому типу соответствует свое распределение того, кому отдать голоса. Итерационный метод находит, каковы искомые распределения, какой избиратель, к какому типу принадлежит.
И правда, выделяются две сильно разные группы проголосовавших. В первой - голосуют мало (9 голосов в среднем). Во второй - много (35 в среднем). В первой у Навального - 40%, во второй - 83%. У этих групп сильно разные группы предпочтений (посмотрите на места Каспарова, Бондарика, Артёмова).
Является ли вторая группа - вбросом или это кластер медиа-хомячков, offline методами узнать невозможно. Выяснить можно лишь контрольным обзвоном.
Если кто-то хочет покрутить сам, то
данные и сорцы.