Вдохновившись
этим примером, я тоже решила запилить что-нибудь для ЖЖ и в итоге написала приложение для анализа постов. Сейчас оно умеет определять языковое разнообразие (насколько разнообразными словами пользуется юзер), среднюю длину поста и самые частые слова. Может, потом добавлю ещё пару функций (а может и нет) :)
Вот что у меня получилось Пока писала и тестировала, обнаружила несколько закономерностей (хотя и меньше, чем ожидала).
Во-первых, у хорошего блога совсем не обязательно высокое разнообразие. У нескольких моих любимых блогеров, которых я считаю одними из самых интересных в ЖЖ, показатель разнообразия довольно средний. Я-то думала, чем круче пишет автор, тем разнообразие будет выше! Но это оказалось и близко не так. Высокие показатели разнообразия (24% и выше) часто встречаются у тех, кто пишет о новостях и всяких событиях - это и понятно, ведь события каждый день разные, поэтому в таких блогах встречается очень много разных слов. А вот у тех, кто пишет на какую-то узкоспециализированную тему (техника, медицина, садоводство), показатель разнообразия, наоборот, чаще низкий.
Сравнивать показатели довольно интересно, я для этого специально прикрутила графики с образцами нескольких топ-блогеров. А особенно интересно (ну мне, по крайней мере) смотреть на самые частые слова.
Но есть и довольно много ограничений, и о них ниже.
Приложение сейчас работает только с русскоязычными блогами. Ни английский, ни украинский язык оно не поддерживает, и результаты для блогов на любом языке, кроме русского, будут неправильными.
Ошибки и манера намеренно коверкать слова, к сожалению, повышают разнообразие. Мой алгоритм пока не умеет исправлять ошибки, и неправильно написанное слово считается уникальным. Так что, если условный юзер vasiliy1488 имеет запас слов Эллочки Людоедки, но при этом пишет “деффчонки” и “нихачу”, то показатель разнообразия его блога вполне может оказаться высоким, увы. (Только что придумала этого Василия для примера, но сейчас залезла на всякий случай проверить, а нет ли такого пользователя в ЖЖ на самом деле. Вы не поверите: такой пользователь есть! Точнее, был, он удалил свой журнал. Василий, если вы вдруг это читаете, простите, я не специально!).
ЖЖ даёт доступ только к 25-ти последним постам пользователя, так что выборка, к сожалению, неполная. И чем более длинные у вас посты, тем точнее результат. Если вы пишете в ЖЖ в формате Твиттера или часто постите одни картинки без текста, результат будет неточным.
Встречаются забавные артефакты! Например, тестируя приложение, я наткнулась на блогера, у которого в списке самых распространённых слов было загадочное “ГАЙДАТЬ”. Задумчиво почесав репу и пошевелив губами, я открыла его блог и сразу всё поняла: чувак пишет о кино и в последнее время часто упоминает знаменитого режиссёра Леонида Гайдая! Приложение, встретив незнакомое слово “Гайдай”, определило его как глагол)) Таким же образом получились очаровательные глаголы “ниховать” и “наховать”. Догадаетесь, от каких слов они образовались? :)
В остальном всё вполне предсказуемо. У Тёмы Лебедева в частых словах “пиздец”, “бесить” и “хуйня”. У shakko_kitsune, которая, как известно, пишет об искусстве, - “портрет”, “картина”, “статуя” и тому подобное. У Эволюции - сплошные “короны”, “щипцы” и прочие её словечки. Но нужно помнить, что ЖЖ отдаёт только последние 25 постов, так что эти слова следует воспринимать не как абсолют, а скорее “о чём этот блогер пишет в последнее время”.
Благодарю за помощь советами и бета-тестированием
mozgosteb,
bearinbloodbath и
rheo_tu.