Intro to Statistics, Part 2

May 25, 2020 21:05

В прошлой серии у нас были две прискорбные ситуации, которые, тем не менее, у эмпириков возникают постоянно. В одной верная нулевая гипотеза отвергалась, и мы принимали негодную торговую стратегию или негодное лекарство (типа плацебо) за годное. Это, увы, неизбежно, само тестирование «на 5%ном уровне значимости» по определению означает, что такое ( Read more... )

Leave a comment

Comments 27

lj_frank_bot May 26 2020, 04:06:07 UTC
Здравствуйте!
Система категоризации Живого Журнала посчитала, что вашу запись можно отнести к категориям: Медицина, Наука.
Если вы считаете, что система ошиблась - напишите об этом в ответе на этот комментарий. Ваша обратная связь поможет сделать систему точнее.
Фрэнк,
команда ЖЖ.

Reply


poiupredatel May 26 2020, 05:44:00 UTC
Читаю со смешанными чувствами. Вроде бы всё понятно и вроде бы это хорошо. Но если учесть, что вы как сами предупредили, будете объяснять несложные вещи в стиле "для чайников", то получается я чайник с серьёзным видом пытающийся разобраться в простых вещах.

Reply

hroniki_paisano May 26 2020, 08:18:30 UTC
ну это я думаю, что все это несложные вещи, потому что я этими вещами занимаюсь всю свою жизнь, еще в прошлом веке начал. в этом мнении, что вещи-то несложные, чего тут понимать, моя обычная ошибка как препода, которую я долго изживал, и источник взаимонепонимания, когда мне случится поговорить с человеком, никогда не работавшим с данными.
от примера про 75% невоспроизводимых результатов и 50% научно одобренных фуфломицинов, потому что низкая мощность, у неподготовленного человека часто вскипает мозг.
а если другому человеку, который предъявляет как доказательство неслучайную выборку, рассказать о том, какая у его теста мощность, вот так вот сразу, то человек теряется и думает, что к нему обращаются на суахили.

Reply


nordickk May 26 2020, 07:09:19 UTC
Почему же плацебо негодное, если его эффективность не менее 30%?

Способ борьбы с этой дранью простой - уяснить себе, что лекарства не лечат.

Reply

hroniki_paisano May 26 2020, 08:26:18 UTC
я не знаю, что такое "эффективность 30%". обычно берут выборку не получивших лечения и получивших его и меряют, скажем, разницу в среднем времени до выздоровления, или там долю получивших осложнения. вот равенство нулю этой разницы и тестируют. размер этой разницы до сравнения ее, скажем, с показателем по не получившей лечения группе, не очень информативен.

большинство болезней, действительно, проходят сами и не угрожают нам смертельным исходом. а всякая хронь не лечится, что с ней ни делай. но при этом многие симптомы хрони лекарствами снимаются, и годам к 40 даже здоровые люди начинают понимать, что это важно. если почитать дневники и переписку людей 19ого века (скажем, письма Тургенева), то там у 40-50летних сплошное нытье, что тут изжога замучила, тут артрит, а друга так вообще неожиданно хватил удар или инфаркт, и нет больше друга. вот от этого всякие таблетки да капли теперь помогают, дают еще лет 20 порадоваться жизни.

Reply

karantin July 27 2023, 19:48:53 UTC

Хочу добавить свои две копейки. Скрининговые тесты в медицине оценивают не по эффективности, что бы это ни значило, а по чувствительности и селективности. Чувствительность - способность выявлять признак в выборке. Допустим, известно, что в выборке из 1000 образцов биоматериала 100 образцов содержат искомый признак. Предположим, что некий тест показывает, что в этой выборке 400 образцов положительны по признаку, а 600 - отрицательны. Если из положительных по тесту все 100 образцов выявлены как положительные, то чувствительность метода -100%, это великолепная чувствительность. Остальные 600 случаев будут гарантированно отрицательны, то есть, здоровы.

Селективность позволяет отсеивать ложноположительные случаи. Допустим, в выборке в 1000 образцов тест определит, что 350 случаев - точно отрицательны, а остальные могут быть любыми. Если в этих 350 не окажется ни одного случая с искомым признаком, то селективность метода - 100%, это очень ценный метод. На практике эти два теста будут работать в тандеме и позволят получить очень высокий ( ... )

Reply


p2004r May 26 2020, 08:45:51 UTC
Только не забывайте в связи с мощностью говорить и о "величине эффекта" одновременно, по сути ошибки + эффект + размер выборки это некий "инвариант", в котором можно любой из параметров объявлять "свободным", выбирая остальные "силой воли" из практических соображений. "Величина эффекта" пожалуй самое важное что нужно "прибить гвоздями" при планировании. По сути все эти "достигнутые п валуэ" о которых рассуждают "математики из биологов" и ловят микроэффекты на уровне "угадал в 50%".

По сути борьба у же произведена -- официальная регистрация _запланированных_ исследований на момент планирования, с обязательной публикацией результата их проведения вне зависимости от "успешности".

Reply

hroniki_paisano May 26 2020, 09:07:25 UTC
про размер величину эффекта будет в следующей серии, в этой серии пришлось ограничиться кратким упоминанием:
"насколько на самом деле оцениваемый параметр отличается от значения, предполагаемого нулевой гипотезой. А вот это «на самом деле» - это то, что мы не знаем и знать не можем, знали бы - и не оценивали бы ничего"

содержательная (в нашем виде спорта говорят "экономическая") значимость это, действительно, важная вещь.
например, даже статистически значимые эффекты размером в 1% годовых работающих с акциями не очень интересуют. после второго года в аспирантуре я написал статью, где выжал значимость для эффекта в 2.5% годовых - мои будущие научруки послушали и сказали дануегонафиг, защиту второгодней статьи я прошел ОК, а диссер писать уже пришлось по другим вещам.
вот экономически большие эффекты с p-value 0.12, про которые было в прошлой серии, интересуют людей меньше, чем следовало, что порождает бессовестный p-hacking.

Reply

p2004r May 26 2020, 13:53:53 UTC
у вас экономистов вполне может прокатить сразу (как я понимаю предвосхищая рассказ "про Байеса") расширять тестирование до поиска оптимального cut-point в принятии осмысленного решения, как это делает Youden Index.

В этот индекс входят и соотношение цен ошибок первого второго рода (что в экономике легко) и реальные частоты исходов решения в предметной области. Можно в принципе для исследуемого признака (или даже сразу для сложного нелинейного правила) считать на плоскости этих двух параметров все существующие оптимальные cut-points и зоны где они вырождаются в крайние варианты.

Причем всё сразу в терминах управления риском получается. И вполне могут проскакивать любые "p value", важно что бы правило-модель работала в зоне "соотношение цены ошибок - меньшая частота ответа" где реальная экономика со своими нуждами находится.

Reply

hroniki_paisano May 26 2020, 20:05:36 UTC
скоро и до этого дойдем, по мере роста вычислительных мощностей
сейчас финансы входят в ту стадию, когда у одной загадки за счет большого числа решающих уже находится с десяток отгадок, а потому начинают появляться обзорные статьи "все отгадки загадки Х, взятые вместе", со всякими тестами Бонферрони

Reply


ext_3020872 May 26 2020, 14:04:23 UTC
Если отвергать нулевую при p-value<0.05, то 5% случаев, когда этого делать не стоило, дадут false positive, негодную вещь назовут годной.

Вы путаете p-value и FDR (type I error rate). Они иногда равны, но чаще всего нет. При power of 50%, по Sellke et al. (2012), p=5% соответствует 29% FDR.

Reply

hroniki_paisano May 26 2020, 19:53:19 UTC
это вы путаете

p-value - это если вы в симуляциях будете кормить тест только верной нулевой гипотезой. тогда, если тест имеет верную размерность (size), доля отвергнутых нулевых будет равна той p-value, при которой вы отвергаете

а FDR это примерно то, что я посчитал в последних абзацах текста (после фразы "Допустим, в некоей области науки...") кстати, почти попал в упомянутые вами 29%, получил воспроизводимость (в первом раунде) 27.5%

Reply

ext_3020872 May 29 2020, 05:33:27 UTC
"только верной нулевой гипотезой". Нулевая гипотеза верна всегда, изначально, по определению и по умолчанию. Других вариантов не приемлется. Таков уж этот counterintuitive and logically flawed NHST.

"Доля отвергнутых нулевых" может совпасть с "p-value" только случайно. Иначе, эти вещи были бы синонимами. Я вам по секрету сообщу, что p-value не равно ничему иному, кроме как p-value при тех же условиях и тех же допущениях стандартной NHST. :)

Reply

ext_3020872 May 29 2020, 06:02:28 UTC
Могу придраться даже к слову "равны". :)
Почитайте, если хотите, книги Prof. Cumming-а, или посмотрите его веселые ролики про Dance of the p Values, чтобы убедиться, что случайные величины (такие как p-value) самим себе равны только случайно.

Reply


Leave a comment

Up