Ещё раз про оценку научных данных и, наконец, про p-value: jescid

jescid

Ещё раз про оценку научных данных и, наконец, про p-value

Jan 23, 2014 16:55

Ничего сложного в p-value нет, но, удивительно - большинство профессиональных биологов и биоинформатиков, с которыми мне пришлось общаться, не могли объяснить, что это такое - мне просто говорили: «ой, я не помню, но чем меньше - тем лучше». У меня одинажды был конкретный вопрос по определённой задаче, где мне надо было обрезать данные по p-value - поэтому мне нужно было знать, на какой выборке эта величина считалась и по какому значению фильтровать результат. Факт того, что учёные люди вообще не хотели знать, как оценивать качество результата без тупого обрезания по зараннее заданному значению, смысл которого они не понимали, меня довольно впечатлил.

А альтернативно-одарённые гмо-шные выбегалы так и вообще зело любят бросать на публику заумные доводы, а публика, сводя глаза в кучку на них, тут же и теряет дар думать головой. Один из любимых коньков выбегал - p-value, которое они вставляют где только можно, чтобы произвести впечатление - видимо, это одно из немногих слов, которые они смогли усвоить на лекциях по статистике.
Обычно для неподготовленного читателя оные журнализды от пост-науки™ сообщают два сколь неверных, столь и неграмотных утверждения:

если p-value меньше данного числа (обычно берётся 0.05) - то эксперимент доказан, т.е. результат на измеряемой группе данных отличается от контрольной группы,
если p-value больше данного значения, которое они ещё называют значимым (тоже обычно 0.05) - то два результата (контрольной и измеряемой групп), дескать, отличаются друг от друга мало, а потому эксперимент неудачен, неверен, ату его!

То, что в интерпретации данных этого эксперимента p-value не используется, неадекватно для использования или используется другое его значение для оценки отличия данных от контрольных, выбегал не озадачивает. Если p-value не приведено (и неадекватно для оценки данных на самом деле), то они сами кидаются считать его, будучи при том ни в зуб ногой в данных, и тут же показывают публике - «смотрите, какой я умный, а какой экспериментатор дурак!» На деле дурак дураком то как раз оказывается выбегало.

Итак, что же такое p-value и почему оба эти утверждения выше вообще говоря неверны?

Допустим у вас есть игральная кость (кубик с точками) и вы точно знаете, что она не подпилена - т.е. выпадение любой стороны равновероятно. Вы загадываете всегда на пятёрку и дальше считаете, сколько раз она у вас выпадает при, скажем, 60 подбрасываниях - назовём 60кратное подбрасывание кубика «испытанием», а однократное - «киданием».
Вы знаете, что вероятность выпадания 5ки = 1/6. Но это не значит, что из 60 подбрасываний у вас обязательно 10 раз выпадет 5ка. Если вы проведёте 1000 таких испытаний, т.е. 1000 раз повторите кидание кубика по 60 раз - всего 60000 киданий, то у вас всякий раз в каждом испытании будет выпадать какое-то число 5к, кучкующееся около 10. Т.е. в какой-то раз будет выпадать 10 раз по 5ке, в другой - 9, в ещё какой-то раз 11 или 12 и т.д. Но случаи, когда у вас из 60 подбрасываний 5ка выпадет всего 5 или 4 раза, ещё меньше, или, наоборот, выпадет, скажем, 15 и более раз (не говоря уж о том, что 60 раз по 5ке из 60 подбрасываний будет совсем невероятным результатом) будут явно куда менее частые, чем когда она будет выпадать 8, 9, 10, 11 или 12 раз из 60. Ведь кубик у нас честный, не подпиленный.

Если вы далее посчитаете сколько всего из 1000 испытаний у вас выпадет по 5ке из 60 киданий и построите график, где по оси Х отложите число выпаданий за испытание (от 1 до 60), а по Y - сколько всего раз из 1000 испытаний у вас случилось данное число выпаданий из 60 киданий, то картинка будет примерно такая, как показана справа.
Т.е., если 8 раз по 5ке из 60 киданий выпало всего 142 раза из 1000 испытаний, то по оси Y напротив 8 по Х вы откладываете 142, а если 10 раз по 5ке из 60 киданий выпало 179 раз, то оси Y откладываете 179 соответственно - понятно, что здесь у нас будет максимум. График сей нарисован для иллюстрации от балды (даже хуже - сгружен с сети и подрисован, чтобы больше соответствовать данному примеру, по Х в реальности там будет уход в ноль, а не в 30), но его общий вид соответствует действительности (и да, это не гауссово, т.е. нормальное распределение). Понятно, что мне недосуг 60000 раз кидать кубик, но общая картина будет примерно такая. Также я не занимаюсь здесь точным подсчётом всех вероятностей - в скольких вероятнее всего случаях из 1000 испытаний 5ка выпадет данное число раз из 60 киданий. Цифры взяты на глаз, интуитивно подходящие и близкие к реальным значениям.

Теперь возьмём неизвестный нам кубик, у которого, возможно, какая-то из граней подпилена, или даже не одна грань. Или с кубиком всё в порядке - но он нам неизвестен, мы должны его проверить. Т.е., мы должны узнать, насколько этот кубик отличается от нашей нуль-гипотезы (что выпадение всех его граней равновероятно и равно 1/6).
Проведём с ним точно такое же число испытаний. Для честного кубика мы знаем, что из 1000 испытаний по 60 подбрасываний мы только 42 раза получили тот случай, когда из 60 подбрасываний у нас выпала 5ка аж 21 раз (синяя полосочка) - это довольно много (больше, чем 1/3 тогда как средняя вероятность должна быть около 1/6) и маловероятно. Вероятность этого события 42/1000=0.042.

Так вот p-value - это вероятность получить данный конкретный результат (или ещё более крайний результат) при условии того, что кубик честный (нуль-гипотеза верна).
Т.е. вероятность получить из 1000 испытаний по 60 киданий такой случай, чтобы в 42 случаях из 1000 данная грань выпала 21 раз в каждом из 60 киданий равна 0.042. А т.к. мы ещё учитываем и крайние результаты (все те случаи, когда данная грань выпала больше чем 21 раз из 60 киданий), то такая вероятность будет немножко больше - скажем, 0.047 (мы складываем вероятности тут для всех выпаданий >21). Вот эта цифра и есть p-value.
Если вы кидаете свой кубик и вдруг обнаруживаете, что у вас из 1000 испытаний в 53 случаях данная грань выпала, скажем 18 раз, то p-value - для данного результата будет другое (больше 0.05, красная полосочка) - но это не значит, что ваш кубик пиленный. Просто выбор результата другой, более ожидаемый.

И обратно. Если ваш кубик пиленный, то для 21 раза выпадания данной грани из 60 киданий у вас будет большая вероятность - скажем, у вас будет аж 70 таких случаев из 1000, p=0.07. Тем не менее для большего числа выпаданий (скажем, 40) из 60 киданий у вас опять будет «хорошее», меньшее значение p-value (даже для пиленного кубика это маловероятно - если уж слишком сильно подпиливать кубик, то это будет слишком заметно) - но «хорошее» значение p-value (меньше 0.05), опять же, не доказывает, что ваш кубик честный.

NB. Мы прежде всего интересуемся теми результатами, которые наименее ожидаемы. Заранее ожидаемые результаты нам неинтересны для проверки кубика: при пиленном кубике отклонение выпадения максимума среднего значения вероятностей от 10 (60*1/6) мы заранее всё равно не знаем, потому что мы не знаем точное значение для него - очевидно, что распределение уже должно быть заметно другим, точнее, общий вид его будет похож на контрольный, тип этого распределения будет тот же (у нас всё тот же тип испытаний и объекта испытаний), но максимум для выбранной грани у пиленного кубика уже будет не в 10, а в другом месте.

Итого.
Чтобы определить отличие данного результата от результата контрольной выборки (правильный кубик) - действительно ли есть отклонение от неё, надо

хорошо понимать какой именно результат берётся из контрольной выборки, а какой из экспериментальной для сравнения,
соответствуют ли они друг другу (корректно ли сравнивать именно эти выбранные результаты),
достаточно ли проведено испытаний для корректной оценки p-value (очевидно теперь, что чем меньше испытаний, тем менее смысла в использовании p-value для оценки того, насколько результаты расходятся от контрольной выборки),
а главное - каково распределение всех результатов в выборке и верно ли это распределение нами изначально выбрано. Вообще говоря оно необязательно нормальное, как у распределения результатов между 0 и 1 (точно такой же пример можно привести с монеткой, но там распределение будет нормальное - см. второй график).
Мною специально выбран такой пример, когда распределение результатов ни разу не нормальное. И это совсем не редкость.

А теперь оцените каково поле для жульничества оных выбегал.
Так что когда вам кто-то начинает что-то втирать про p-value - задумывайтесь как следует и проверяйте данные на все четыре пункта, указанных выше.

p-value, science