Leave a comment

Comments 9

zavtornik May 18 2011, 20:27:27 UTC
>Сообщения анализируются на предмет того, положительно или отрицательно в них говорится о кинокартине.

ого! Не верю. Нужно будет пообщаться на эту тему.

Reply

yaham May 18 2011, 20:30:42 UTC
Речь идет не о семантическом анализе текста.
Сообщения разбиваются на слова, приводятся к нормальной форме, сравниваются со словарем на предмет наличия эмоционально окрашенных слов.
Для каждого сообщения подсчитываются веса.

Reply

zavtornik May 18 2011, 20:37:28 UTC
теорию я понимаю. Обсуждалось не раз. Трудность видится в словаре. Алгоритм хорошо, но реально софту довольно сложно понять оценки данные в тексте.

Например: в отличие от ужасного фильма про Васю, фильм про Петю сделан с душой.
Если мы оцениваем все это для фильма про Петю, то ужасный засчитывается в минус, с душой не засчитывается никуд, ибо врядли оно в словаре.

Reply

yaham May 19 2011, 13:42:37 UTC
Нужно вводить критерии для того чтобы соотносить то что говорится, с тем о чём говорится.
Близость слов в предложении, наличие слова "фильм" или "кино" и т.д.

Reply


ilidannax May 19 2011, 04:53:57 UTC
Сервис понравился, но над эмоциональной окраской предложений нужно работать :)

Reply

yaham May 19 2011, 13:43:17 UTC
Раскрой мысль :)
Встретилась неверная трактовка твиттов?

Reply

ilidannax May 21 2011, 19:58:08 UTC
Да, к сожалению, не сделал скринов.
Твитт не всегда бывает положительным или отрицательным, он бывает нейтральным (нулевой или околонулевой вес отлавливается?), но программа уверенно записывает его в плюс или минус. Когда видишь такой сбор статистики - задумываешься над достоверностью полученного результата. :)

Reply

che_shr_cat May 27 2011, 12:41:07 UTC
Да, оценки алгоритмов очень не хватает.

Reply


che_shr_cat May 27 2011, 12:38:54 UTC
А всё-таки, почему он не находит "generation П"?

Reply


Leave a comment

Up