spe

Кластеризация статей

May 02, 2011 22:00

Достаточно долго получалось обходиться твиттером, но, вдруг, оказалось, что то, что я хочу написать сейчас, туда явно не поместится ( Read more... )

анализ данных, c++, кластеризация

Leave a comment

Comments 3

r_ace May 2 2011, 19:00:31 UTC
Принцип описан очень верно! В больших проектах кластеризация новостей укрупнено происходит как-то так :) На больших объемах информации разбиение как в примере на 5 кластеров вместо логичных 3 (по количеству тем - свадьба, торнадо и Сирия) является очень обоснованным, поскольку новости делятся не только по темам, но и по контексту, исходя из которого описана тема/новость.
Теперь об обработке статей: здесь представлены готовые статьи без html-верстки, а на практике с отделением текста статьи от верстки могут быть проблемы, но они тоже решаемы.
Кстати, после обработки статей (удалении верстки) можно, например, помечать тегами имена действующих лиц, чтобы потом можно было, например, перейти на все новости, где упомянут человек.

Reply


ext_524102 May 3 2011, 15:14:28 UTC
Для нахождения однокоренных слов с разными аффиксами пользуются стеммерами (особенно хороши для английского языка), стеммер Портера - самый популярный. Результат дает значительно быстрее, чем метрики хэмминга и тд.
Приходи на мою предзащиту, кстати, в мае когда-то там будет. Расскажу приемы, которые в своей работе использую.

Reply

spe May 4 2011, 06:57:51 UTC
Да, я читал про стеммеры, просто я решил, что я не успею сделать с ними, праздники все-таки были, сутками за компом сидеть не хотелось. Надеюсь что-то дописать в 3 следующих выходных.

Reply


Leave a comment

Up