Принцип описан очень верно! В больших проектах кластеризация новостей укрупнено происходит как-то так :) На больших объемах информации разбиение как в примере на 5 кластеров вместо логичных 3 (по количеству тем - свадьба, торнадо и Сирия) является очень обоснованным, поскольку новости делятся не только по темам, но и по контексту, исходя из которого описана тема/новость. Теперь об обработке статей: здесь представлены готовые статьи без html-верстки, а на практике с отделением текста статьи от верстки могут быть проблемы, но они тоже решаемы. Кстати, после обработки статей (удалении верстки) можно, например, помечать тегами имена действующих лиц, чтобы потом можно было, например, перейти на все новости, где упомянут человек.
Для нахождения однокоренных слов с разными аффиксами пользуются стеммерами (особенно хороши для английского языка), стеммер Портера - самый популярный. Результат дает значительно быстрее, чем метрики хэмминга и тд. Приходи на мою предзащиту, кстати, в мае когда-то там будет. Расскажу приемы, которые в своей работе использую.
Да, я читал про стеммеры, просто я решил, что я не успею сделать с ними, праздники все-таки были, сутками за компом сидеть не хотелось. Надеюсь что-то дописать в 3 следующих выходных.
Comments 3
Теперь об обработке статей: здесь представлены готовые статьи без html-верстки, а на практике с отделением текста статьи от верстки могут быть проблемы, но они тоже решаемы.
Кстати, после обработки статей (удалении верстки) можно, например, помечать тегами имена действующих лиц, чтобы потом можно было, например, перейти на все новости, где упомянут человек.
Reply
Приходи на мою предзащиту, кстати, в мае когда-то там будет. Расскажу приемы, которые в своей работе использую.
Reply
Reply
Leave a comment