Речь идет не о семантическом анализе текста. Сообщения разбиваются на слова, приводятся к нормальной форме, сравниваются со словарем на предмет наличия эмоционально окрашенных слов. Для каждого сообщения подсчитываются веса.
теорию я понимаю. Обсуждалось не раз. Трудность видится в словаре. Алгоритм хорошо, но реально софту довольно сложно понять оценки данные в тексте.
Например: в отличие от ужасного фильма про Васю, фильм про Петю сделан с душой. Если мы оцениваем все это для фильма про Петю, то ужасный засчитывается в минус, с душой не засчитывается никуд, ибо врядли оно в словаре.
Нужно вводить критерии для того чтобы соотносить то что говорится, с тем о чём говорится. Близость слов в предложении, наличие слова "фильм" или "кино" и т.д.
Да, к сожалению, не сделал скринов. Твитт не всегда бывает положительным или отрицательным, он бывает нейтральным (нулевой или околонулевой вес отлавливается?), но программа уверенно записывает его в плюс или минус. Когда видишь такой сбор статистики - задумываешься над достоверностью полученного результата. :)
Comments 9
ого! Не верю. Нужно будет пообщаться на эту тему.
Reply
Сообщения разбиваются на слова, приводятся к нормальной форме, сравниваются со словарем на предмет наличия эмоционально окрашенных слов.
Для каждого сообщения подсчитываются веса.
Reply
Например: в отличие от ужасного фильма про Васю, фильм про Петю сделан с душой.
Если мы оцениваем все это для фильма про Петю, то ужасный засчитывается в минус, с душой не засчитывается никуд, ибо врядли оно в словаре.
Reply
Близость слов в предложении, наличие слова "фильм" или "кино" и т.д.
Reply
Reply
Встретилась неверная трактовка твиттов?
Reply
Твитт не всегда бывает положительным или отрицательным, он бывает нейтральным (нулевой или околонулевой вес отлавливается?), но программа уверенно записывает его в плюс или минус. Когда видишь такой сбор статистики - задумываешься над достоверностью полученного результата. :)
Reply
Reply
Reply
Leave a comment