Тятя, тятя, наши сети...

Jun 14, 2011 23:30

... приволокли новый массив данных для анализа.

Итак,
за период с 1 июня 2010 года по 1 июня 2011
500 топовых блогеров (по количеству френдов на 05.06.2011) написало 276 488 открытых постов, получило на них 10 066 972 комментариев от 316 277 неанонимных читателей.

Т.е. данные вот этой публикации можно признавать морально устаревшими и ждать новых ( Read more... )

блогосфера

Leave a comment

Comments 13

dmitryanon June 15 2011, 15:23:11 UTC
Ждем с нетерпением

Reply


simmons_fan June 15 2011, 17:08:58 UTC
Сижу в Carnegie Mellon University и осваиваю методологию анализа подобного количества текстов и их превращения в сети.

Reply

infist_xxi June 15 2011, 17:20:01 UTC
Текстов у меня нет :( Хотя если каменты первого уровня брать - они есть.

Reply


psi_bg June 21 2011, 12:56:15 UTC
А можно вопрос не по теме?
Встала передо мной задачка: сделать автоматическую генерацию тегов к новостям. Т.е. на вход - заголовок и текст, на выходе - набор слов и словосочетаний (что важно, потому что сложнее) с основными сущностями, упоминаемыми в новости.
Словосочетанием для простоты будем считать пары "существительное-существительное" (курс доллара) и "прилагательное-существительное" (кишечная инфекция).

Не встречалось ли вам описание алгоритма для такого анализа?
Я вчера поразмыслил, набросал свою версию, но наверняка должен быть готовый вариант: задача-то не выглядит специфической.

Reply

infist_xxi June 21 2011, 14:09:52 UTC
Алгоритма не встречал, думаю надо посмотреть в различных публикациях Яндекса, публикациях по автоматическому аннотированию текстов и пр.

Тут мне кажется два подхода. Либо семантический, с учетом структуры языка - это надо иметь серьезные познания в лингвистике. Либо статистический - тут можно подумать если есть большая база текстов для обучения (например, построить матрицу межсловных расстояний для выделения устоявшихся словосочетаний, посчитать частоты и пр.).

PS. На хабре видел какой-то пост из песочницы, который описывает алгоритм классификации текстов на основе символьных (не словарных!) цепочек. Это не в тему, но так...

Reply

psi_bg June 21 2011, 14:42:22 UTC
У меня получилась смесь того и другого. Примерно так:
1) выделить блоки текста, разделенные знаками препинания
2) привести все слова к начальной форме, определить часть речи (для этого есть готовые инструменты, например яндексовский mystem)
3) найти в каждом блоке по шаблонам слова и словосочетания - теги
4) посчитать для тегов TF (можно еще и IDF)
5) взять N тегов с наибольшим весом.

Reply

infist_xxi June 21 2011, 16:21:31 UTC
Ну я сам так делал в точности, но я это делал для слов, а как выделять словосочетания без матрицы расстояний? какие шаблоны? структура предложений или что? В этом мне кажется самая заморочка. Дальше то все просто.

Я бы еще отдельно увеличивал веса именам собственным - фамилии, названия, аббревиатуры. Скорее всего частота у них будет небольшая, а контекст они определяют сильно.

И IDF тоже надо, да.

Reply


22sobaki June 21 2013, 08:32:00 UTC
Прошу прощения, не совсем по теме.
Есть способ узнать, насколько пересекаются аудитории определенного пользователя и определенного сообщества?

Reply

infist_xxi June 21 2013, 09:47:58 UTC
Наверное есть, но я давно не занимался этим вопросом и не могу сказать точно.

Reply


Leave a comment

Up