На TREC-е я такое замечал, но 90% - это жесть... :)
С baseline не так все просто, кстати. Ввиду того, что свойства запросов по коллекции сильно разные, а выборка небольшая. К тому же небольшое количество результатов оценивает малое количество асессоров, скорее всего разных год от года, и тут личные свойства асессоров сильно влияют на "жёсткость" оценки. Поэтому сравнивать даже со своими прошлогодними не есть гуд. Оно с одной стороны научно и покатит для статьи, типа не придраться, а с другой стороны - часто ни о чем. На TREC-е я так глубоко не копал, но на РОМИПе это было очевидно.
Comments 9
Reply
Reply
Reply
Reply
С baseline не так все просто, кстати. Ввиду того, что свойства запросов по коллекции сильно разные, а выборка небольшая. К тому же небольшое количество результатов оценивает малое количество асессоров, скорее всего разных год от года, и тут личные свойства асессоров сильно влияют на "жёсткость" оценки. Поэтому сравнивать даже со своими прошлогодними не есть гуд. Оно с одной стороны научно и покатит для статьи, типа не придраться, а с другой стороны - часто ни о чем. На TREC-е я так глубоко не копал, но на РОМИПе это было очевидно.
Reply
Reply
Reply
Reply
Leave a comment