(Untitled)

Aug 12, 2012 18:00

Тут заметки про туториалы на SIGIR2012, наверное мало кому интересно
Read more... )

sigir2012

Leave a comment

Comments 15

g00dmann August 13 2012, 07:54:39 UTC
Интересно, надеюсь, что про SIGIR еще будут рассказы. :)

Возник вопрос - а кто-то пытался наложить модели юзабилистов по глаз-трекингу на поведение на серпе? Вдруг оно коррелирует?

Reply

n0mad_0 August 13 2012, 15:58:18 UTC
если я верно понял вопрос, то вроде были статьи в которых "моделисты поведения" вдохновляются трекингом. ну, или для иллюстраций просто его используют =) только вроде там ничего нетривиального не было, скорее всего.

Reply

g00dmann August 13 2012, 16:34:15 UTC
Ну, я бусурманским поиском не умею пользоваться. :)

В глаз-трекинге количество различных моделей поведения сильно ограничено, их всего несколько штук на все ярды юзеров (Дима Сатин как-то говорил, что меньше 10-ти). Поведенческих моделей юзера на серпе так же мало. Если они сильно совпадают с трегинговыми (а почему бы и нет), то всё сильно упрощается. Достаточно разделить юзеров по глазьям, после чего каждый вид как-то описать, хотя бы подгонкой с ML. С такими данными счастье юзера на серпе можно прилично улучшить, появилась бы большая куча новых задач, реально решаемых.

Reply

n0mad_0 August 13 2012, 21:33:15 UTC
хмхм, а где почитать про модели пользователей в глаз-трекинге? =)

Reply


kashnikov August 13 2012, 08:01:45 UTC
Спасибо! Интересно ;)

Reply


(The comment has been removed)

n0mad_0 August 15 2012, 00:33:57 UTC
а с другой стороны, без трека еще ж хуже

Reply


_winnie August 14 2012, 20:14:00 UTC
> Wilcoxon paired signed rank test нифига (экспериментально) не хорош для оценки стат.значимостей различий поисковых систем. А хорош paired t-test (! шок, ведь у него куда более суровые assumptions !)

Я прочитал первую половину статьи, я так понял что "лучше" значит "более чувствительный".

Wilcoxon paired signed rank содержит меньше assumptions и именно поэтому плохой, когда assumptions таки выполняются. Он слишком надежный, он работает даже тогда когда пары измерений зависимы, например когда есть пары измерений высоты китайцев и русских на разных испорченых линейках (в каждой паре - одна линейка, но разные линейки для разных пар) или AB-тестинг для понедельника и воскресенья. Ну и от распределения тоже не зависит. Поэтому ему нужно гораздо больше данных что бы дать вердикт "разница есть".

Есть ещё U-критерий Манна - Уитни, которому тоже пофиг на распределение (линейку), но требует что бы линейка была одна (независимость и одинаковость всех испытаний ( ... )

Reply

_winnie August 14 2012, 20:34:08 UTC
Хотя я удивлен тому, что что sign test они почему-то ругают и за false alarms, что у него p-value неожиданно меньше чем у других тестов, интересно как такое может быть

Ещё странно, вот в этом абзаце такое ощущение что перепутан bootstrap и permutation test, или я неправильно понимаю эти тесты.
Another issue with both the bootstrap and the t-test is hat both of them have as part of their null hypotheses that the scores from the two IR systems are random samples from a single population. In contrast, the randomization test only concerns itself with the other possible experimental outcomes given the experimental data. The randomization test does not consider - the often incorrect - idea that the scores are random samples from a population.

Вроде наоборот, random permutation в нулевой гипотезе предполагает что A,B просто метки на одном распределении, а их bootstrap-shift замечательно сработает на сравнении разных распределений A и B.

Reply

_winnie August 14 2012, 21:42:20 UTC
Понял, что не понимаю описания их реализации bootstrap. При sampling with replacement - берутся пары (A[i], B[i]) или (A[i], B[j])?

Ok, у нас 50 пар. Что они называют bootstrap distribution, которое они сдвигают на mean? Двумерное совместное распределение или что?

Reply

n0mad_0 August 15 2012, 00:51:57 UTC
я еще не добрался до статьи: то джетлаг выдавливал сознание, то слайды делать, то отчеты писать; но я прочитаю и обязательно чтонить напишу =)

Reply


Leave a comment

Up