В недавнем выпуске подкаста More or Less обсуждали и объясняли довольно известный
"парадокс Симпсона".
Заключается он в следующем (реальный пример):
Компания набирает на работу людей, и из общей статистики видно, что для мужчины вероятность получить работу в компании (отношение количества нанятых к количеству поданных заявлений) выше, чем для женщины. Чтобы установить, кто именно в компании дискриминурует, мы смотрим на данные по каждому из отделов в компании, и обнаруживаем, что в каждом из отделов вероятность получить работу совершенно одинакова и для мужчины и для женщины.
Как такое может быть? В википедии дана пара примеров, но в подкасте мне кажется более элегантно объяснили:
(примечание: для наглядности цифры в примере используются маленькие, но следует предположить, что шансу тут места нет и все исходы определяются детерминистически)
Хору нужны певцы, всего 9 позиций, но из них 6 с низкими голосами, а 3 с высокими.
На позиции с низкими голосами подали заявки 8 мужчин и 4 женщины. Хор взял 4 мужчин и 2 женщин. Никакой дискриминации, количество нанятых пропорционально количеству заявок.
На позиции с высокими голосами подали заявки 4 мужчины и 8 женщин. Хор взял 1 мужчину и 2 женщин. Тоже никакой дискриминации.
Но в итоге для мужчин вероятность попасть в хор 5/12, а для женщин - 4/12.
Это произошло потому, что больше женщин подали заявки на позиции с высокой конкуренцией, что в среднем уменьшило их шансы быть нанятыми.
В википедии также дан хороший пример, который ближе к моей области: Лекарство тестируется на двух группах людей, сравнивается с плацебо. В каждой из групп оно показывает эффективность - принимавшие лекарство с большой вероятностью выздоравливали, чем принимавшие плацебо. Но если эти две группы сложить вместе, то получается парадоксальный результат - принимавшие лекарство выздоравливали с меньшей вероятностью, чем принимавшие плацебо. Это происходит потому, что одна группа намного хуже выздоравливает (хоть с лекарством хоть без) чем другая, и именно в этой группе большое количество человек принимали лекарство (что логично - если мы знаем, что они плохо выздоравливают, то именно им и будем в первую очередь давать лекарство).
Примеры сами по себе интересные, но я на самом деле о них тут написал с несколько большей целью.
В интернетах постоянно приходится сталкиваться со "специалистами", которые "конечно не специалисты, но в таких вещах разбираются" или даже "не специалисты, но тут же все очевидно, цифры сами за себя говорят". Что уж там далеко ходить, я и сам наверняка грешен, уж очень легко попасть в эту ловушку и не заметить того, что ты разобрался не так хорошо, как тебе кажется (классический Даннинг-Крюгер, да). В любом сложном знании полно самых разных подводных камней, которые специалисты с большей вероятностью обойдут, чем неспециалисты. Специалисты также будут иметь гораздо более ньюансированное понимание процессов, чем неспециалисты. В примере с хором, неспециалисту легко довериться цифрам и выбрать из двух интерпретаций данных ту, которая сходится с его предвзятым мнением. Специалист видит не черное и белое, а одновременно и то, что дискриминации нет, и то, что дискриминация есть.
В тему под катом хороший комикс от SMBC.
- Я не предвзят. Я готов поверить любому аргументу с любой стороны.
- Однако у меня есть твердые стандарты к данным.
- Люди, которые не согласны с моим мненим, должны как минимум предоставить данные из шести исследований, каждое длиной в 50 лет и на 10 тысячах участниках, и каждое исследование должно быть закончено не раньше, чем в последние 6 месяцев.
- Люди, которые согласны с моим мнением, должны предоставить заголовок статьи из таблоида, или карикатуру в которой несогласные со мной показаны в виде свиней с клыками.
- Ты не понимаешь, что такое предвзятость.
- Это потому что я - единственный не предвзятый человек.