Comments | spe: Кластеризация статей

spe

Кластеризация статей

May 02, 2011 22:00

Достаточно долго получалось обходиться твиттером, но, вдруг, оказалось, что то, что я хочу написать сейчас, туда явно не поместится ( Read more... )

анализ данных, c++, кластеризация

Comments 3

r_ace May 2 2011, 19:00:31 UTC

Принцип описан очень верно! В больших проектах кластеризация новостей укрупнено происходит как-то так :) На больших объемах информации разбиение как в примере на 5 кластеров вместо логичных 3 (по количеству тем - свадьба, торнадо и Сирия) является очень обоснованным, поскольку новости делятся не только по темам, но и по контексту, исходя из которого описана тема/новость.
Теперь об обработке статей: здесь представлены готовые статьи без html-верстки, а на практике с отделением текста статьи от верстки могут быть проблемы, но они тоже решаемы.
Кстати, после обработки статей (удалении верстки) можно, например, помечать тегами имена действующих лиц, чтобы потом можно было, например, перейти на все новости, где упомянут человек.

ext_524102 May 3 2011, 15:14:28 UTC

Для нахождения однокоренных слов с разными аффиксами пользуются стеммерами (особенно хороши для английского языка), стеммер Портера - самый популярный. Результат дает значительно быстрее, чем метрики хэмминга и тд.
Приходи на мою предзащиту, кстати, в мае когда-то там будет. Расскажу приемы, которые в своей работе использую.

spe May 4 2011, 06:57:51 UTC

Да, я читал про стеммеры, просто я решил, что я не успею сделать с ними, праздники все-таки были, сутками за компом сидеть не хотелось. Надеюсь что-то дописать в 3 следующих выходных.