Сегодня утром мне пришла в голову мысль дополнить частотный анализ текста построением кластеров частых слов, выделенных по минимальной дистанции между словами.
В кластер попадают частые слова из текста, которые к тому же часто встречаются рядом (относительно рядом).
Текст берётся из последних 25 публичных записей дневника [жж].
Пока в массовое пользование запустить не готов, но кому интересно, отписывайтесь, сгенерю чудесный граф для вас.
Спасибо яндексу за чудесный mystem.
Под кат я запихал результаты обработки своих стихов за последние 12 лет. Тоже занятно.
Парсер - лох. Вместо "душ", конечно же, "душа".
UPD: При желании можете теперь попробовать
сами потестить свой журнал.