Об p-value

Apr 24, 2014 08:45

Вопрос на mathoverflow про частые ошибки интерпретации статистики.

Начитавшись комментариев к этому вопросу, я, наконец, просёк одну из фишек p-value; чего и вам советую ( Read more... )

Leave a comment

Comments 12

sassa_nf April 24 2014, 15:53:50 UTC
На самом деле нужно помнить, что вариантов интерпретации не два, а четыре ( ... )

Reply

(The comment has been removed)

sassa_nf April 28 2014, 13:25:37 UTC
да с assumptions понятно. я хотел акцентировать внимание на том, что если "тест" говорит нам, что с вероятностью 99% что-то там, то это не говорит ничего о точности классификации.

Допустим, если тест говорит, что болен, то с вероятностью 99% это так. Значит, с вероятностью 1% он ошибается, и на самом деле здоров. Но при этом не известно, с какой вероятностью человек здоров, если тест не говорит, что болен. Иными словами, тест может "распознавать" 1% всех больных, но очень точно - и при этом мы не можем сказать, какую долю больных он на самом деле распознаёт.

Можно этот аргумент развернуть и наоборот - пусть тест говорит, что здоров и с вероятностью 99% это так. Тогда в 1% случаев он ошибается и на самом деле болен, а не здоров. Но при этом ни слова о том, с какой вероятностью человек болен, если тест не говорит, что здоров.

Одной цифрой нельзя покрыть два показателя достоверности классификации.

Reply


p2004r April 24 2014, 16:50:23 UTC
1) Беда в том, что все эти p еще, вдобавок, получают в результате множественных сравнений, не вводя никаких поправок.

2) Применяют их для оценки результатов наблюдений, а не экспериментов. То есть сначала собирают данные, а потом выдвигают гипотезу :) Сколько при этом "просочилось" информации в такую "гипотезу" установить не возможно.

3) Заменяют "величину наблюдаемого эффекта" на p. В результате набором группы всегда можно сказать что "изменения есть" и очень "достоверные" :)

Reply

antilamer April 24 2014, 16:59:09 UTC
1 - это не про http://xkcd.com/882/ ? (это, кажется, называется "p-hacking")

Reply

p2004r April 24 2014, 17:16:16 UTC
Да, это первый случай :) "Честно" повторяем пока не "получилось", все случаи когда "не получилось" "не считаются" :) (Ну или просто повторяем тест на новом показателе, который мудро "заложили" в эксперименте.)

Увы процесс зашел до такой степени, что считается неприличным спрашивать диссертанта во время защиты о использовании поправки Бонферрони при множественных сравнениях :(

Reply


shmel39 April 24 2014, 17:40:40 UTC
В плане медицинских тестов всегда рассматривают процент ложноположительных и ложноотрицательных срабатываний. Ну, я бы конкретно напрягся, если бы встретил в описании медицинского теста только p-value. Проблема еще в том, что совместить и то, и другое очень сложно. Поэтому обычно используют два _различных_ теста: один для скрининга, другой для "диагноза". Скрининг требует, чтобы мы пропускали как можно меньше больных людей, "диагноз" требует, чтобы мы не лечили здоровых.

Reply

p2004r April 24 2014, 17:53:48 UTC
Это давно сформулировано математически
... )

Reply

shmel39 April 24 2014, 18:33:40 UTC
Эмм... И что? Это не теория категорий, такие вещи должен уметь формулировать сообразительный студент.

Reply

p2004r April 24 2014, 18:45:03 UTC
Да, когда сформулировано, то всё очень просто. Но тем не менее заменяет кучу словесных рассуждений на тему "оптимальности". В частности показывает "относительность" любой оптимальности.

Reply


ext_1568687 April 24 2014, 18:08:02 UTC
>>Например, предположим, что в целом по населению частота интересующей нас формы рака - 1 на миллион.
>>...вероятность моей болезни даже с учётом теста всё равно примерно 1 на миллион.

Без всякого теста вероятность болезни тоже 1 на миллион? То есть тест не показал вообще ничего?

Reply


vasily_nosikov April 24 2014, 18:37:55 UTC
Меня вот это осознание накрыло прошлой зимой, когда я на курсере статистику решил послушать: http://vasily-nosikov.livejournal.com/127723.html
Про другие ошибки тоже посмотрю

Reply


Leave a comment

Up