Результаты ИМат 2011 / Relevance Prediction Challenge

Feb 15, 2012 19:39

Результаты конкурса Интернет-математика 2011 с Деанонимизацией, Кратким Описанием Алгоритмов и Ссылками на Статьи.


#

Test set result

Relative test result

Overfitting

Team

Method

# of features

Click models

Collaborative filtering

1

0,667362

100,000

0,683

cointegral
Андрей Гулин (Яндекс)

11 x GBRT
(Matrixnet)

42

-

-

2

0,665060

99,655

0,997

Evlampiy
Михаил Парахин (Bing)

5 x (HNN + SVM + 3 x GBRT)

139

+

+

3

0,664527

99,575

0,671

alsafr
Александр Сафронов (Яндекс)

1 x GBRT
(Matrixnet)

78

-

-

4

0,663169

99,372

0,649

alexeigor
Алексей Городилов (Яндекс)

?

?

?

-

5

0,660982

99,044

0,994

keinorhasen
Botao Hu (Hong Kong University of Science and Technology),
Nathan N. Liu (Hong Kong University of Science and Technology),
Weizhu Chen (MSRA / Hong Kong University of Science and Technology)

Learning from Click Model and Latent Factor Model for Relevance Prediction Challenge

LambdaMART

?

+

+

6

0,659914

98,884

-0,379

mmp
Михаил Фигурнов (МГУ),
Александр Кириллов (МГУ)

Linear combination of random forests for the Relevance Prediction Challenge

6 x Random Forest
(R)

43

-

-

7

0,659452

98,815

0,356

Cutter

?

?

?

?

8

0,658103

98,613

0,837

S-n-D
Сергей Гуда,
Денис Рябов

Отчет по конкурсу Relevance Prediction Challenge

1 x Random Forest
(Weka)

234

-

-

-

-

-

-

-

-

-

-

-

11

0,656314

98,344

-0,273

dminer
Михаил Агеев (НИВЦ МГУ)

Additive Groves

22

+

-

-

-

-

-

-

-

-

-

-

15

0,653560

97,932

1,499

HawksAtlanta
Qi Guo (Emory University),
Dmitry Lagun (Emory University),
Denis Savenkov (Emory University),
Qiaoling Liu (Emory University)

Improving Relevance Prediction by Addressing Biases and Sparsity in Web Search Click Data

1 x GBRT
(pGBRT)

?

+

-

-

-

-

-

-

-

-

-

-

34

0,643346

96,401

1,024

CLL
R. Gareev (Казанский (Приволжский) федеральный университет),
D. Kalyanov (10tracks.ru),
A. Shaykhutdinova (Казанский (Приволжский) федеральный университет),
N. Zhiltsov (Казанский (Приволжский) федеральный университет)

Overview of CLL team’s solution

1 x GBRT
(R)

26

-

-
Test set result - результат по метрике AUC на тестовой выборке.
Relative test result - отношение результата команды к лучшему результату. По этой колонке хорошо видно, что в топе борьба велась за десятые и даже сотые доли процента.
Overfitting - разница между результатом на проверочной выборке и результатом на тестовой выборке. Overfitting = (ValidationResult - TestResult) * 100 / ValidationResult. Высокие значения в этой колонке могут свидетельствовать о том, что команда переобучилась на проверочной выборке (результаты на которой были доступны во время проведения конкурса). А могут и не свидетельствовать, тут однозначно сложно сказать.

Какие выводы из участия в конкурсе и результатов я сделал лично для себя:
  • Высокие результаты в конкурсе можно было получить, не используя различные кликовые модели. Это усиливает мое убеждение в том, что множество простых факторов + хорошее машинное обучение почти всегда побьет сложную модель (это относится не только к кликам, но и к другим областям).
  • Относительно простой метод, не использующий комбинацию нескольких разных моделей, показывает неплохие результаты (3-е место). Вероятно, мой подход вообще был самым простым в топе, при этом он отличается от монструозной комбинации моделей в духе Нетфликса у Миши Парахина всего на 0.08%.
  • BagBoo рулит.
  • Вопрос о том, насколько полезно было использовать collaborative filtering / разложение тензоров пока еще открыт. Вроде бы у Гулина получилось это заюзать. Надо попробовать.
  • Возможно, более сложные модели более склонны к переобучению (см. результаты Evlampiy и keinorhasen). 
  • Хорошо выступили ребята из МГУ c random forests. Отличный результат для относительно простого алгоритма (при этом ребята раньше вообще не занимались плотно машинным обучением). Еще у них прикольный эффект - на тестовой выборке результаты улучшились по сравнению с проверочной выборкой.
  • Надо верить своим глазам. В процессе разработки фичей я столкнулся с тем же самым эффектом странного поведения dwell time, о котором говорил Миша Парахин (на самом деле, это такой особый артефакт подготовки данных / анонимизации). Но я счел этот эффект ошибкой и не стал его использовать - как выяснилось, зря - можно было получить серьезный профит.
Встретимся в следующем конкурсе!

конкурсы, машинное обучение, интернет-математика, learning to rank, яндекс

Previous post Next post
Up