Как и зачем в России рисуют статистику по коронавирусу. Часть первая. Анализ статистики

Nov 01, 2021 00:47

Эта статья - вернее, набор, одним куском ЖЖ столько не проглотит! - задумывалась очень давно. Активно мониторить данные и собирать материал я начал еще летом. А некоторые примеры вообще прошлогодние. Сейчас я решил больше не ждать и уже фиксироваться на полученных данных. Итак...

Больше года назад, в августе 2020-го, произошло любопытное статистическое событие. С 14 августа по 2 сентября включительно смертность от коронавируса в Москве была от 10 до 12 человек в день. Вот официальные данные:

14.08 - 1115.08 - 1216.08 - 11
17.08 - 1018.08 - 1119.08 - 1020.08 - 1121.08 - 1222.08 - 1023.08 - 11
24.08 - 1025.08 - 1226.08 - 1127.08 - 1228.08 - 1029.08 - 1230.08 - 11
31.08 - 1201.09 - 1102.09 - 12

Данные можно проверить вот тут: https://datalens.yandex/cuqvlhq5yu488?56667170-2453-459b-a0ae-635d2e7fcfd2=%D0%9C%D0%BE%D1%81%D0%BA%D0%B2%D0%B0

Что в этой последовательности такого интересного? А то, что в каждый следующий день значение не совпадает с предыдущим. Возникает вопрос: какова вероятность такой последовательности?

Посчитать несложно. Если у нас есть всего три варианта исхода, то вероятность того, что следующий не совпадает с текущим - 2/3. За три дня - два несовпадения, (2/3)2. За 4 - (2/3)3. А у нас в последовательности 20 дней, т.е. вероятность такой последовательности - (2/3)19 = 4.5*10-4, или, проще говоря, 0.045%.

Для меня как математика по образованию реализация в реальной жизни последовательности с вероятностью в сотые доли процента выглядит... как бы эт' помягче...

Есть еще один нюанс. На эту последовательность обратили внимание и как раз 2-го сентября про нее много где написали с ехидным таким смешком. Так вот, 3-го сентября она прервалась. На следующий день после публикации. Но это, конечно же, только совпадение. А сама последовательность имеет право на существование. Да. Нашлись люди, которые горячо в этом убеждали.

Но это всё дела давно минувших дней. Хочется поговорить о том, что происходило совсем недавно, за последние несколько месяцев. И происходит сейчас.

Хотя нет, нужно еще одно отступление.

С самого начала, как только стали публиковать статистику повыявленным случаям, меня интересовал вот такой вопрос. Если 22 июля выявлено 24471 случай, а 24 сентября 21379 - ситуация улучшается или ухудшается? А если 20 июля 23770 случаев, а 14 августа - 22144? Что вообще можно сказать по этим абсолютным цифрам?

Да ничего нельзя сказать. Эти цифры абсолютно, клинически бесполезны без других. А именно - сколько было проведено тестов, чтобы получить такой результат? Согласитесь, что 5 случаев заболевания при 10 тестах - это одно, а 5 случаев при 1000 тестов - кардинально другое. А поскольку количество тестов меняется каждый день, сравнивать абсолютное количество выявленных случаев невозможно вообще. Конкретно в приведенном выше примере 22 июля был проведен 505231 тест, а 24 сентября 441350 тестов. 20 июля 505231 тест, а 14 августа - 423710. И как тут сравнивать?

А просто, если вдуматься. Надо всего лишь одно поделить на другое. Если сначала 5% тестов дают положительный результат, а потом 10% - ситуация ухудшается. Если сначала 5%, а потом 4% - улучшается. Сравнивать надо проценты выявления. И в приведенных выше примерах получается довольно забавно. В первом процент выявления совпадает с точностью до округления до тысячных - 4.844% в обоих случаях. То есть ситуация вообще не изменилась. А общее количество случаев уменьшилось на 3092, или на 13%. Сделали больше тестов - получили больше случаев. Сделали меньше тестов - получили меньше случаев. При одном и том же проценте выявления. Запомните этот приём.

А во втором случае еще забавнее. 20 июля при 23770 случаев процент выявления получается 4.705. А 14 августа при 22144 случаях - 5.226. То есть при меньшем количестве случаев на самом деле процент выявления вырос! Количество заболевших на 100 000 увеличилось на 500 человек!

Понимаете, какой простор для маневра открывает публикация только одного из этих чисел?

Возвращаемся к статистике. И теперь будут слайды. Вообще графическое представление творит чудеса. Все большие картинки - кликабельны.

Сразу дам ссылки на источники:

По тестам надо сделать пояснение. Внешне график выглядит как прямая с рядом пиков. На самом деле это следствие откровенной ошибки. Или не ошибки... Прямая - это тесты за день. И они ощутимо скачут. Но внезапно по каким-то дням вместо тестов за день публикуется кумулятивное количество тестов на этот день за всё время. А перед этим днем идет некоторое количество дней с нулевым результатом. Ну и в результате появления пиков на сотни миллионов обычное количество тестов - сотни тысяч - кажется уже прямой.

Сначала это было эпизодически - до 2 мая таких пиков было всего семь. Но с 18 июля данные пошли ТОЛЬКО в таком виде с интервалом от 2 до 6 дней. И чем дальше, тем интервалы больше, иногда доходило уже до недели. Если разделить разницу между двумя пиками на количество дней между ними - как раз и получится в среднем количество тестов в день в этот промежуток. И хоть такое усреднение сильно скрадывает картину, тем не менее какие-то выводы хороши видны и тут. А некоторые эффекты видны даже лучше.

Честно говоря, я думал, что это ошибка в том дэшборде, откуда я беру данные. Но позже оказалось, что в данных Университета Джона Хопкинса, который плотно занимается статистикой по коронавирусу, тоже нет актуальных данных после 18 июля. А, значит, с очень большой вероятностью данные загрубляются намеренно.

Итак, статистика. Начнем с пары графиков из прошлого года - с 21 июля по 21 августа и с 18 сентября по 15 октября. Для удобства на них обозначены выходные дни.

График июля-августа 2020. Это плато после первой волны, медленное падение.



Официальные данные - количество случаев и количество тестов, синий и темно-зеленый. Процент выявления, расcчитанный - красный. И два усреднения за семь дней, тестов (светло-зеленый) и процента выявления (желтый).

Какие тут есть особенности? Прежде всего необходимо обратить внимание на прыжки графика тестов. Период неделя, максимальное падение - в понедельник. Очень характерная форма. В центре он по опыту может идти как угодно, хоть горбом, хоть буквой "М", но вот эти характеристики - период и нижняя точка - повторяются всё время. В принципе это объяснимо. В публикуемых данных - количество тестов, сделаных накануне, т.е. реально нижняя точка в воскресенье.

График количества выявленных случаев на этой картинке тоже прыгает, причем, если присмотреться, то он запаздывает на день за тестами. Что тоже объяснимо - результаты тестов, как правило, приходят на следующий день.

А вот что необъяснимо - так это прыжки процента выявления. Если верить этому графику, то в выходные идет тестироваться существенно больше заболевших, чем в будни. В будни 1.9% - в воскресенье 3%. В будни 1.7% - в воскресенье 3.1%. В будни 2.6% - в воскресенье 2.9%. И т.д. И эта картина характерна для всего набора данных, который у меня в принципе есть. По этому поводу у меня есть только одна мысль - либо данные вообще насквозь искусcтвенные, либо я не вижу какого-то фактора, который так интересно влияет. Потому пока просто возьмем на заметку.

Интересно посмотреть и на средние. Процент выявления медленно падает - с 2.2 в начале периода до 1.85 в конце, на 16%. Среднее количество тестов чуть растет, с 268К до 272К, на 4%. Этот рост не может компенсировать падение процента выявления, потому количество случаев снижается.

Теперь второй график, сентябрь-октябрь 2020. Это рост второй волны.



Расцветка та же. Официальные данные - количество случаев и количество тестов, синий и темно-зеленый. Процент выявления, расcчитанный - красный. И два усреднения за семь дней, тестов (светло-зеленый) и процента выявления (желтый).

Тут интереснее. Во-первых, на графике случаев нет хоть как-то выраженных скачков с периодом в неделю. Здесь почти всё время устойчивый рост, несмотря на то, что тесты всё так же прыгают. Во-вторых, если посмотреть на средние, то виден опять-таки устойчивый рост - как процента выявления (на 80%, с 1.97 до 3.52!), так и количества тестов (на 37%, с 324К до 446К). Вот эти оба подъема и дают общий рост в 2.4 раза.

Почему я так подробно останавливаюсь на таких, казалось бы, простых вещах? Потому что это важно для понимания данных по последним четырем месяцам. Самое существенное, что отсюда необходимо вынести - то, что при спаде волны падает процент выявления, а при подъеме волны этот процент растет.

А теперь - обратно в наши дни.

С начала мая я собираю данные на постоянной основе, каждый день. И, соответственно, строю разнообразные графики. Вот сводный график по зарегистрированным случаям заболевания, тестам и проценту выявления. Здесь для удобства тесты считаются в сотнях тысяч по правой шкале, всё остальное - по левой, случаи в тысячах, процент выявления как есть. Добавлено также среднее по количеству случаев. И, да, в основном я буду говорить про усредненные данные за неделю, чтобы нивелировать скачки.

Сам график вот. Основной именно он. Данные ограничены 21 октября, потому что когда-то надо было остановиться.




Во-первых, обратите внимания на явные (!) прыжки количества случаев с периодом в неделю. Если вы посмотрите на график исходных данных по России, то увидите, что началось это с 11 ноября 2020. До этого прыжки были либо невнятные, как на первом приведенном выше графике, либо их не было вообще, как на втором. И форма графика гораздо лучше соответствует количеству тестов, по крайней мере до начала роста.

Во-вторых, с 18 июля график тестов становится "полочками" - выше-ниже-выше-ниже... Я уже упоминал, почему это - с 18 июля перестали публиковать актуальные данные по тестам за сутки, только кумулятивные. Соответственно, среднее за несколько дней вычислить можно, но не больше. Но период все равно остается 7 дней.

А вот теперь то, ради чего всё это затевалось.

Начало июня. Начало третьей волны. Смотрим на график. Средний процент выявления начинает расти и с 5 по 30 июня поднимается с 2.6 до 4.9. Рост в 1.9 раза, на 90%. То есть это реальная волна. Но публике показывают совсем другие цифры! Среднее количество случаев растет с 9К до 21К, т.е. в 2.3 раза. И на этом графике прекрасно видно, почему - почти на 40% выросло количество тестов. "Сделали больше тестов - получили больше случаев". Помните приём?

Но самый цимес начинается дальше. С 1 июля и до 19 августа среднее выявление как приклеенное стоит в районе 4.9 - 5.1. А среднее количество случаев при этом сначала с 1 по 15 июля растет с 21350 до 24978, на 17%, а потом с 15 июля по 19 августа падает с 24978 до 21391, т.е. на 15%. Почему? Потому что среднее количество тестов сначала растет с 454К до 536К, а потом падает с 536К до 432К. "Сделали больше тестов - получили больше случаев. Сделали меньше тестов - получили меньше случаев. При одном и том же проценте выявления." Приём в действии.

И вишенка на торте - с 9 сентября по 21 октября. Выявление - от 4.794% до 5.769%, рост на 20%. А случаи выросли с 18281 до 34026, уже на 86%. Почему? Куда там идет светло-зеленая линия? С 381.5К до 589.9К. Рост на 54.6

Вот график только со средними, чтобы остальные данные не мешали.




Понимаете, что происходит? Нет никакого спада третьей волны! Нет никакого страшного подъема четвертой! Никакого напряженного положения с эпидемиологической ситуацией! Официальные данные явно показывают, что всё ровно! За первый месяц якобы подъема заболеваемости - с 9 сентября по 9 октября - выявляемость изменилась от 4.794% до 5.135%, на СЕМЬ ПРОЦЕНТОВ. Это при том, что в третью волну, с 5 июня по 4 июля, выявляемость скакнула с 2.583% до 5.064%, на ДЕВЯНОСТА ШЕСТЬ ПРОЦЕНТОВ. А потом - с 28 июня по 14 октября, три с половиной месяца! - выявляемость оставалась в пределах 5% плюс-минус 0.5%

Да, сейчас выявляемость несколько стала расти, но максимальный размах роста за всю "четвертую волну" составил 29%. Сравните с третьей.

То есть вклад с начала "четвертой волны" в общее количество случаев такой - 20% дает увеличение выявляемости, 54% - увеличение количества тестов. Но нам всё это не показывают. Нам показывают только произведение - 1.20*1.54=1.848. Те самые 86% роста с учетом ошибок округления.

Выше я задавал вопрос - понимаете, какой простор для маневра открывает публикация только одного из этих чисел? Теперь понимаете?

Но и это еще не всё.

Поскольку я интересуюсь данными не только по России, но и по Москве, в какой-то момент мне стало любопытно. В каком отношении находится количество выявленных в них случаев? Не банально одно поделить на другое, а динамика. Если растет количество в России - что с количеством в Москве?

Для начала я взял тот же период, что на самом первом графике, с 21 июля по 21 августа 2020 года.



Синее - число случаев по всей стране, фиолетовое - по Москве. Сразу хочу сказать, масштабы на графике различаются - по стране поделено на 1000, по Москве на 100. Так нагляднее. Зелеными столбиками внизу отмечено совпадение (в обоих случаяю рост или падение), красными - несовпадение динамики. Результат - 12 зеленых и 18 красных. Примерно 40 на 60. Выборка маленькая, так что погрешность может быть и такой.

А теперь тоже самое - со 2 июля по 21 октября 2021. Оцените.




За 122 дня 12 - ДВЕНАДЦАТЬ!!! - несовпадений. Это не 40 на 60, это 1 на 10. Причем часть несовпадений - это изменение "не в ту сторону" на несколько единиц при значении в несколько тысяч. Например, с 20 на 21 августа - 20992->21000 по России, 1925->1852 по Москве. По Москве падение на 3.8%, по России рост на 0.038%.

Теперь я вспомню, что по образованию я математик. И посчитаю вероятность последовательности с 25 июля по 20 августа. 27 совпадений подряд. Вероятность совпадения - 1/2 (4 исхода, из которых два совпадения). То есть за 27 дней вероятность последовательности - (1/2)27. Это 0,00000000745. Или, если словами - семь с половиной десятимиллионных процента.

Серьезно???

А ведь она не одна такая, эта последовательность. Через одно несовпадение (то самое, где вместо падения был рост на 0.038%) за ней следует последовательность из 22-х совпадений. Вероятность целых 0,00002%. А что там было до 2 июля, где я данные по Москве еще не собирал?

Посмотрим еще раз на график корреляции за 2020 год, который выше. Я вот его опять повторю.



Обратите внимание на прямую линию по Москве с 3 по 21 августа. Желающие могут проверить по исходным данным. Но поверьте на слово - в этом ряду есть два отклонения от 690 на 6 вниз и одно на 5 - вверх. Остальные меньше. И ни намека на периодичность. Значение бессистемно 19 дней прыгает вокруг 690 на несколько единиц. В пятнадцатимиллионной (!) Москве. Поразительная стабильность, правда? А помните, с чего я начал рассказ? Со статистики смертности. По Москве. С 14 августа по 2 сентября. 11 плюс-минус 1. Поразительная стабильность. Статистические аномалии по тому же региону по разным показателям в пересекающиеся периоды. Занятно, правда?

А еще более занятно, если смотреть на весь график случаев по Москве за лето-начало осени 2020.




На графике отмечены две точки - 1 июля и 14 сентября. Желающие опять-таки могут проверить по исходным данным, а я просто скажу - эти точки примечательны тем, что между ними количество случаев держится ниже 700. Т.е. до 30 июня был спад первой волны. 30 июня было 745, 1 июля стало 611, дальше держалось ниже 700 до 14 сентября (там же был и ОЧЕНЬ прямой участок, который я показывал выше). 14 сентября было 696, 15 сентября 730 - и дальше резкий подъем, вторая волна.

Этакий островок стабильности длиной два с половиной месяца. С 1 июля по 14 сентября 2020 года.

Никаких ассоциаций даты не навевают?

Если нет - напомню. 1 июля было голосование по Конституции. 13 сентября был единый день голосования - выборы 2020 года.

То есть имеем факт. Официальные данные. В Москве количество случаев снизилось ниже 700 четко к голосованию по Конституции, день в день, держалось ниже 700 до выборов - и на следующий день после подведения итогов выборов рвануло вверх, во вторую волну.

Какой сознательный вирус...

Кстати, в этом году вирус не менее сознателен. Спад среднего количества случаев идет до 12 сентября, потом перелом тенденции и начинается медленный подъем. До 17 сентября прирост в день составляет менее 1% дневных случаев, с 17 сентября - уже более 1%. А именно 17 сентября начались три дня голосования в 2021 году.

Пора подводить итоги. Соберем вместе факты, выведенные из официальной - подчеркиваю это! - статистики.

  1. В августе - начале сентября 2020 в Москве наблюдалась статистически аномальная последовательность по смертности с вероятностью 0.045%
  2. С 18 июля 2021 года перестали публиковать достоверные данные по количеству тестов в сутки - только кумулятивно
  3. Процент выявления - количество выявленных тестами случаев к количеству выполненных тестов - с начала июня по начало июля поднимался, а дальше стабилизировался на одном уровне с колебаниями не больше 10%
  4. В это же самое время официальная статистика показывает третью волну, ее спад, а теперь уже четвертую
  5. Из официальных данных четко видно, что спад третьей волны и начало четвертой - это исключительно результат изменения количества тестов. Сделали больше - получили больше. Сделали меньше - получили меньше
  6. Графики по выявленным случаям по России и Москве показывают статистически аномальную корреляцию как минимум со 2-го июля. В данных присутствует две последовательности с корреляцией с вероятностями 0,00002% и 0,000000745%, 22 и 27 дней соответственно.
  7. График выявленных случаев по Москве летом-осенью 2020 года показывает четкое совпадение с датами голосований - в первое голосование заканчивается первая волна, количество случаев падает ниже 700, до второго голосования держится на этом уровне, на следующий день после подведения итогов второго голосования начинается резкий рост - вторая волна. Причем некоторые участки этого плато аномально прямые, с отклонением меньше процента.
  8. График выявленных случаев по России в конце лета и начале осени 2021 года снижается на протяжении двух месяцев - до голосования на выборах. Первый прыжок вверх происходит на неделе голосования, дальше начинается резкий подъем.

Я ничего не упустил?

А вот теперь выводы.

Я не верю в совпадения. Особенно в совпадения абсолютно несвязанных событий. И тем более - если эти совпадения повторяются. А потому - если количество выявленных случаев заболевания лихо снижается в течение полутора месяцев в десять раз, аккурат к очень важной дате, потом держится на этом уровне как приклеенное до следующей очень важной даты, а потом стрелой уходит в небо, то это не случайность. Не бывает таких случайностей. Особенно, если картина повторяется через год.

Как математик я, скрипя, могу допустить, что при определенных обстоятельствах последовательность с вероятностью 0.045%, наверное, могла бы реализоваться. Оцените степень уверенности. Но 0,00002% - уже нет. И тем более 0,000000745%. Последовательность из 27 подряд совпадений динамики (вероятность 1/2) - это по сути последовательность из 27 бросаний монетки. Чтобы перебрать все варианты последовательностей, даже без учета возможных повторений, потребуется больше 3.6 миллиарда бросков. Если бросать монетку раз в секунду, на это уйдет 115 лет.

А ведь надо еще помнить, что эта последовательность лежит в области, где процент выявления прочно стоит на 5% с очень небольшими колебаниями. То есть на всём этом периоде количество случаев зависит исключительно от количества тестов. Которое в этот период по России не публикуется точное, только усредненное (а по Москве я вообще не могу количество тестов найти). По всем признакам это игра с количеством тестов. Потому что я опять-таки не верю, чтобы количество тестов в рамках всей страны после усреднения падало такой замечательной прямой, посмотрите на основной график между 26 июля и 19 августа, светло-зеленая линия. И сравните с той же линией, но ДО 25 июля. Да и после 19 августа, до 9 сентября, - тоже ступеньки, но линия вот ни разу не прямая.

Еще один момент. Посмотрите вот на этот график.




Это всего семь субъектов федерации. Видите эту вакханалию? А теперь представьте, что их 85, как оно и есть на самом деле. Так вот, значения по стране - это сумма всех этих графиков. Вы можете представить, чтобы эта сумма на протяжении 27 дней двигалась так же, как и один из графиков - московский? При том, что этот график дает только 10-15% от суммы?

И, да. Все эти аномалии реализуются одновременно. И разумное поведение вируса, и совпадение графиков, и очень стабильный процент выявления.

А если вы думаете, что это все имеющиеся аномалии, то вы сильно заблуждаетесь. Их намного больше. Вот график по трем субъектам - Москва, Московская область и Питер. На нем отмечены три интервала.




Первый интервал - уже упомянутый с 3 по 21 августа 2020, когда в Москве количество случаев как приклеенное держалось около 690. Как видите - не только в Москве. Область и Питер не отстают - по области от 145 до 160, но в основном в районе 155, Питер вообще стойко на 160 плюс-минус три. Какой дисциплинированный вирус!

Второй интервал - перед новым годом 2021. В Питере с 10 до 31 декабря 3750 плюс-минус 10. При этом по Московской области устойчивый рост, а в Москве - вообще адская пилорама. А в Питере как в Багдаде - всё спокойно. Кстати, обратите внимание на резкое падение всех трех графиков, начиная со 2-го января. Понимаете, почему именно со второго? Праздники, количество тестов сильно упало. Во всех регионах.

Третий интервал - с 14 июля по 9 августа уже 2021 года. В Питере видим ровную линию с 1942 до 1907. Падение меньше, чем на 2%, без каких-либо недельных колебаний. При этом по Москве перепады от 5382 до 1952, на 60%, по области от 2541 до 1287, на 50%. Я могу допустить, что в разных регионах разная ситуация, но когда это такой прямой линией... И это не первая полочка в статистике Питера, а уже третья. И каждый раз - три недели. Опять совпадение?

Как математик по образованию я просто не могу принять за правду такое количество совпадений и аномалий в случайных по своей сути процессах. Всё это означает существование какого-то фактора Х. Который ко всему этому приводит.

И по принципу бритвы Оккама самый простой фактор Х, который всё может объяснить - политика и деньги. Большая политика и очень большие деньги. Проще говоря, "ищите, кому это выгодно".

Чем выгоден "рост заболеваемости", т.е. рост количества случаев? Можно закрутить гайки. Можно принять какие-нибудь обязывающие законы. Например, носить маски и перчатки. Можно зарядить халдеев на штрафы. Что это даст? Ажиотажный спрос на масочки. Особенно если еще и хорошо напугать. В результате масочка себестоимостью рубль подскакивает иногда до ста. Ну и штрафы тоже чуть-чуть приносят. А масочный заводик куплен заранее, производство расширено.

А ведь можно еще и от центра средства получить на борьбу со страшным вирусом. И когда получим - что-что, а пилить мы умеем очень хорошо! Можно, например, закупить 10 000 масок по 427 рублей за штучку. Ок, пусть это даже не трехслойные, а KN95 - они даже в рознице на сотню дешевле, не говоря про опт. А что там с себестоимостью? На 01.10.2021 оптом такие маски можно купить по 10 - ДЕСЯТЬ - рублей за штуку. Т.е. себестоимость еще меньше. И не рассказывайте сказок, что за год она снизилась. С чего бы?

Чем выгодно "снижение заболеваемости" - уменьшение количества случаев? Народец расслабляется. И если сделать это вовремя, то можно добиться хороших результатов. Например, правильного голосования. Сверху спущен приказ, надо отрабатывать. Если всех посадить под арест - могут и прокатить из состояния протеста. А вовремя всех выпустить, да вожжи ослабить - ограничения поснимать "в связи с падением заболеваемости" - на радостях проголосуют как надо, да еще осанну петь будут. И до следующего голосования можно подержать "заболеваемость" на низком старте. А после голосования - добро пожаловать обратно. Масочки сами себя не продадут.

Если умело кошмарить как граждан, так и бизнес - можно очень многого добиться. Главное, вовремя давать слабину. Как это делается - вы видели выше. Для этого надо всего лишь контролировать пять аспектов:
  1. Законодательную власть
  2. Исполнительную власть
  3. Судебную власть
  4. Статистику
  5. Пропаганду

А теперь подумайте - у кого есть контроль над этими пятью аспектами? Кто при этом может получить средства из бюджета? Кто может реализовывать какие-то свои политические и коммерческие интересы?

Вопрос риторический. Ответ вы знаете не хуже меня.

Но это всё уже история. Дела минувших дней. Интереснее другое. Что нас ждет в будущем? Для этого нужно провести еще один анализ, на этот раз анализ публичных заявлений.

важно, за гранью добра и зла, коронавирус

Previous post Next post
Up