В прошлой серии у нас были две прискорбные ситуации, которые, тем не менее, у эмпириков возникают постоянно. В одной верная нулевая гипотеза отвергалась, и мы принимали негодную торговую стратегию или негодное лекарство (типа плацебо) за годное. Это, увы, неизбежно, само тестирование «на 5%ном уровне значимости» по определению означает, что такое
(
Read more... )
Comments 27
Система категоризации Живого Журнала посчитала, что вашу запись можно отнести к категориям: Медицина, Наука.
Если вы считаете, что система ошиблась - напишите об этом в ответе на этот комментарий. Ваша обратная связь поможет сделать систему точнее.
Фрэнк,
команда ЖЖ.
Reply
Reply
от примера про 75% невоспроизводимых результатов и 50% научно одобренных фуфломицинов, потому что низкая мощность, у неподготовленного человека часто вскипает мозг.
а если другому человеку, который предъявляет как доказательство неслучайную выборку, рассказать о том, какая у его теста мощность, вот так вот сразу, то человек теряется и думает, что к нему обращаются на суахили.
Reply
Способ борьбы с этой дранью простой - уяснить себе, что лекарства не лечат.
Reply
большинство болезней, действительно, проходят сами и не угрожают нам смертельным исходом. а всякая хронь не лечится, что с ней ни делай. но при этом многие симптомы хрони лекарствами снимаются, и годам к 40 даже здоровые люди начинают понимать, что это важно. если почитать дневники и переписку людей 19ого века (скажем, письма Тургенева), то там у 40-50летних сплошное нытье, что тут изжога замучила, тут артрит, а друга так вообще неожиданно хватил удар или инфаркт, и нет больше друга. вот от этого всякие таблетки да капли теперь помогают, дают еще лет 20 порадоваться жизни.
Reply
Хочу добавить свои две копейки. Скрининговые тесты в медицине оценивают не по эффективности, что бы это ни значило, а по чувствительности и селективности. Чувствительность - способность выявлять признак в выборке. Допустим, известно, что в выборке из 1000 образцов биоматериала 100 образцов содержат искомый признак. Предположим, что некий тест показывает, что в этой выборке 400 образцов положительны по признаку, а 600 - отрицательны. Если из положительных по тесту все 100 образцов выявлены как положительные, то чувствительность метода -100%, это великолепная чувствительность. Остальные 600 случаев будут гарантированно отрицательны, то есть, здоровы.
Селективность позволяет отсеивать ложноположительные случаи. Допустим, в выборке в 1000 образцов тест определит, что 350 случаев - точно отрицательны, а остальные могут быть любыми. Если в этих 350 не окажется ни одного случая с искомым признаком, то селективность метода - 100%, это очень ценный метод. На практике эти два теста будут работать в тандеме и позволят получить очень высокий ( ... )
Reply
По сути борьба у же произведена -- официальная регистрация _запланированных_ исследований на момент планирования, с обязательной публикацией результата их проведения вне зависимости от "успешности".
Reply
"насколько на самом деле оцениваемый параметр отличается от значения, предполагаемого нулевой гипотезой. А вот это «на самом деле» - это то, что мы не знаем и знать не можем, знали бы - и не оценивали бы ничего"
содержательная (в нашем виде спорта говорят "экономическая") значимость это, действительно, важная вещь.
например, даже статистически значимые эффекты размером в 1% годовых работающих с акциями не очень интересуют. после второго года в аспирантуре я написал статью, где выжал значимость для эффекта в 2.5% годовых - мои будущие научруки послушали и сказали дануегонафиг, защиту второгодней статьи я прошел ОК, а диссер писать уже пришлось по другим вещам.
вот экономически большие эффекты с p-value 0.12, про которые было в прошлой серии, интересуют людей меньше, чем следовало, что порождает бессовестный p-hacking.
Reply
В этот индекс входят и соотношение цен ошибок первого второго рода (что в экономике легко) и реальные частоты исходов решения в предметной области. Можно в принципе для исследуемого признака (или даже сразу для сложного нелинейного правила) считать на плоскости этих двух параметров все существующие оптимальные cut-points и зоны где они вырождаются в крайние варианты.
Причем всё сразу в терминах управления риском получается. И вполне могут проскакивать любые "p value", важно что бы правило-модель работала в зоне "соотношение цены ошибок - меньшая частота ответа" где реальная экономика со своими нуждами находится.
Reply
сейчас финансы входят в ту стадию, когда у одной загадки за счет большого числа решающих уже находится с десяток отгадок, а потому начинают появляться обзорные статьи "все отгадки загадки Х, взятые вместе", со всякими тестами Бонферрони
Reply
Вы путаете p-value и FDR (type I error rate). Они иногда равны, но чаще всего нет. При power of 50%, по Sellke et al. (2012), p=5% соответствует 29% FDR.
Reply
p-value - это если вы в симуляциях будете кормить тест только верной нулевой гипотезой. тогда, если тест имеет верную размерность (size), доля отвергнутых нулевых будет равна той p-value, при которой вы отвергаете
а FDR это примерно то, что я посчитал в последних абзацах текста (после фразы "Допустим, в некоей области науки...") кстати, почти попал в упомянутые вами 29%, получил воспроизводимость (в первом раунде) 27.5%
Reply
"Доля отвергнутых нулевых" может совпасть с "p-value" только случайно. Иначе, эти вещи были бы синонимами. Я вам по секрету сообщу, что p-value не равно ничему иному, кроме как p-value при тех же условиях и тех же допущениях стандартной NHST. :)
Reply
Почитайте, если хотите, книги Prof. Cumming-а, или посмотрите его веселые ролики про Dance of the p Values, чтобы убедиться, что случайные величины (такие как p-value) самим себе равны только случайно.
Reply
Leave a comment