если я верно понял вопрос, то вроде были статьи в которых "моделисты поведения" вдохновляются трекингом. ну, или для иллюстраций просто его используют =) только вроде там ничего нетривиального не было, скорее всего.
Ну, я бусурманским поиском не умею пользоваться. :)
В глаз-трекинге количество различных моделей поведения сильно ограничено, их всего несколько штук на все ярды юзеров (Дима Сатин как-то говорил, что меньше 10-ти). Поведенческих моделей юзера на серпе так же мало. Если они сильно совпадают с трегинговыми (а почему бы и нет), то всё сильно упрощается. Достаточно разделить юзеров по глазьям, после чего каждый вид как-то описать, хотя бы подгонкой с ML. С такими данными счастье юзера на серпе можно прилично улучшить, появилась бы большая куча новых задач, реально решаемых.
> Wilcoxon paired signed rank test нифига (экспериментально) не хорош для оценки стат.значимостей различий поисковых систем. А хорош paired t-test (! шок, ведь у него куда более суровые assumptions !)
Я прочитал первую половину статьи, я так понял что "лучше" значит "более чувствительный".
Wilcoxon paired signed rank содержит меньше assumptions и именно поэтому плохой, когда assumptions таки выполняются. Он слишком надежный, он работает даже тогда когда пары измерений зависимы, например когда есть пары измерений высоты китайцев и русских на разных испорченых линейках (в каждой паре - одна линейка, но разные линейки для разных пар) или AB-тестинг для понедельника и воскресенья. Ну и от распределения тоже не зависит. Поэтому ему нужно гораздо больше данных что бы дать вердикт "разница есть".
Есть ещё U-критерий Манна - Уитни, которому тоже пофиг на распределение (линейку), но требует что бы линейка была одна (независимость и одинаковость всех испытаний
( ... )
Хотя я удивлен тому, что что sign test они почему-то ругают и за false alarms, что у него p-value неожиданно меньше чем у других тестов, интересно как такое может быть
Ещё странно, вот в этом абзаце такое ощущение что перепутан bootstrap и permutation test, или я неправильно понимаю эти тесты. Another issue with both the bootstrap and the t-test is hat both of them have as part of their null hypotheses that the scores from the two IR systems are random samples from a single population. In contrast, the randomization test only concerns itself with the other possible experimental outcomes given the experimental data. The randomization test does not consider - the often incorrect - idea that the scores are random samples from a population.
Вроде наоборот, random permutation в нулевой гипотезе предполагает что A,B просто метки на одном распределении, а их bootstrap-shift замечательно сработает на сравнении разных распределений A и B.
Comments 15
Возник вопрос - а кто-то пытался наложить модели юзабилистов по глаз-трекингу на поведение на серпе? Вдруг оно коррелирует?
Reply
Reply
В глаз-трекинге количество различных моделей поведения сильно ограничено, их всего несколько штук на все ярды юзеров (Дима Сатин как-то говорил, что меньше 10-ти). Поведенческих моделей юзера на серпе так же мало. Если они сильно совпадают с трегинговыми (а почему бы и нет), то всё сильно упрощается. Достаточно разделить юзеров по глазьям, после чего каждый вид как-то описать, хотя бы подгонкой с ML. С такими данными счастье юзера на серпе можно прилично улучшить, появилась бы большая куча новых задач, реально решаемых.
Reply
Reply
Reply
(The comment has been removed)
Reply
Я прочитал первую половину статьи, я так понял что "лучше" значит "более чувствительный".
Wilcoxon paired signed rank содержит меньше assumptions и именно поэтому плохой, когда assumptions таки выполняются. Он слишком надежный, он работает даже тогда когда пары измерений зависимы, например когда есть пары измерений высоты китайцев и русских на разных испорченых линейках (в каждой паре - одна линейка, но разные линейки для разных пар) или AB-тестинг для понедельника и воскресенья. Ну и от распределения тоже не зависит. Поэтому ему нужно гораздо больше данных что бы дать вердикт "разница есть".
Есть ещё U-критерий Манна - Уитни, которому тоже пофиг на распределение (линейку), но требует что бы линейка была одна (независимость и одинаковость всех испытаний ( ... )
Reply
Ещё странно, вот в этом абзаце такое ощущение что перепутан bootstrap и permutation test, или я неправильно понимаю эти тесты.
Another issue with both the bootstrap and the t-test is hat both of them have as part of their null hypotheses that the scores from the two IR systems are random samples from a single population. In contrast, the randomization test only concerns itself with the other possible experimental outcomes given the experimental data. The randomization test does not consider - the often incorrect - idea that the scores are random samples from a population.
Вроде наоборот, random permutation в нулевой гипотезе предполагает что A,B просто метки на одном распределении, а их bootstrap-shift замечательно сработает на сравнении разных распределений A и B.
Reply
Ok, у нас 50 пар. Что они называют bootstrap distribution, которое они сдвигают на mean? Двумерное совместное распределение или что?
Reply
Reply
Leave a comment