Срыв башки.
Парадокс Симпсона иллюстрирует неправомерность некоторых иногда опасных для жизни обобщений. Так, например, в ходе эксперимента в группе мужчин и группе женщин, больных одной и той же болезнью, к стандартному лечению прибавили новый лекарственный препарат. Результат по обеим группам в отдельности подтверждал эффективность нового
(
Read more... )
Comments 13
Мужчины всего Принимавшие Не принимавшие
Выздоровевшие 700 80
Невыздоровевшие 800 130
Соотношение 0.875 0.615
Мужчины группа 1 Принимавшие Не принимавшие
Выздоровевшие 350 70
Невыздоровевшие 700 128
Соотношение 0.5 0.546
Мужчины группа 2 Принимавшие Не принимавшие
Выздоровевшие 350 10
Невыздоровевшие 100 2
Соотношение 3.5 5
Нормировать надо, например, по общему количеству пациентов и не будет таких проблем.
Reply
Именно это и высаживает.
С одной стороны, результат по подгруппам важнее агрегированного.
Но с другой - имея любые статистические данные, можно придумать, как разделить пациентов на подгруппы таким образом, чтобы получить в каждой подгруппе нужный нам результат.
> Нормировать надо, например, по общему количеству пациентов и не будет таких проблем.
По каким именно подгруппам нормировать?
По полу, возрасту, весу, цвету глаз?.. Каждый пациент в чём-то уникален. Но эффективно ли лекарство?
Reply
http://ru.wikipedia.org/wiki/Джерримендеринг
Reply
Парадокс Симпсона круче: при том, что в общей (суммарной) статистике лекарство вредно, при разделении пациентов на группы оказывается, что в каждой из групп оно эффективно (а не просто в большинстве групп, что не было бы фокусом).
Reply
И вот тут как раз интересно то, что при адекватной нормировке (например, пересчитать так, чтобы в каждой из контрольных групп сумма была равна 1000) приведённые тобой таблицы свидетельствуют про эффективность лекарства! После сложения пронормированных таблиц получится (извини, рамки не буду рисовать, строки и столбцы те же)
1148.49 969.19
851.51 1130.81
1148.49+1130.81 заметно больше, чем 851.51+969.19:) И в данном примере из википедии смысл оказался (не знаю, был ли заложен авторами примера) в том, что именно хитрое суммирование было применено для доказательства ложного вывода.
(На всякий случай - почему я делаю простое суммирование - да потому, что мужчин и женщин где-то поровну.)
staerum писал про нормирование, но ( ... )
Reply
Можем ли мы на каком-то основании предпочитать одно разбиение на группы другому для того, чтобы узнать, как оно "на самом деле"?
В примере из поста приведено разное количество участвовавших в эксперименте мужчин и женщин, хотя в популяции их количество примерно равное. Чего не скажешь обо всяких других признаках (цвет глаз, наличие гена и пр.).
Reply
У меня последние несколько дней как-то мозги не хотят в эту сторону поворачиваться, но мне кажется, что при равных группах не будет такого перекоса, как ты говоришь.
Запишу подумать это себе в todo на более спокойные времена.
Reply
Связь между X и Y может быть положительной в обоих подвыборках и отрицательной в общей выборке. Главный трюк в том, что выборки не являются независимыми (ортогональными к) левосторонней переменной.
Если есть логическая уверенность в том, что характеристика выборки (пол) не влияет на Y (способность к выздоровлению от данной болезни), то эффект в общей выборке и в частных подвыборках будет схожим.
Reply
Допустим, протестировали лекарство, и оно оказалось полезным.
Можем ли мы быть уверены, что при разделении нашей выборки на разные части (мужчины/женщины, молодые/старые, белые/чёрные, голубоглазые/кареглазые, кучерявые/прямоволосые, с геном в каком-нибудь аллеле A/B) у нас не получится, что лекарство плохо влияет в каждой из частей, т.е. что оно на самом деле для всех вредно?
Впрочем, если лекарство окажется вредным в каждой из частей, это ещё не означает, что мы не можем эти части разбить ещё мельче каким-нибудь способом, и в результате получить, что оно всё-таки полезно.
Иными словами, строгие на вид способы тестирования лекарств (двойной слепой, плацебо контролируемый и т.п.) основываются на достаточно свободном (и даже очевидно неверном) допущении о том, что мы учли все признаки, которые могут влиять на эффективность лекарства, и в одной тестируемой группе находятся только люди, у которых все эти признаки одинаковы. Иначе по статистике никаких уверенных выводов сделать нельзя.
Reply
Reply
Цвет глаз и форма волос задаются генами, говорят о происхождении, коррелируют с разными другими генами (возможно, не столь явно влияющими на фенотип), и потому влиять на эффективность лекарств могут.
Reply
Leave a comment