Comments | a_bugaev: Вы думали, пресс-портрет Яндекса знает только нынешних людей?

a_bugaev

Вы думали, пресс-портрет Яндекса знает только нынешних людей?

Oct 15, 2010 16:38

Да ничего подобного ( Read more... )

Comments 12

ivanov_petrov October 15 2010, 13:58:59 UTC

главное - последовательность http://news.yandex.ru/people/khristos_iisus.html
http://news.yandex.ru/people/izrailev_bozha.html
http://news.yandex.ru/people/gospod1_iisus.html
http://news.yandex.ru/people/voskresshij_iisus.html

a_bugaev October 15 2010, 14:10:08 UTC

Наиболее загадочный тут Божа Израилев. Видимо, у Яндекса там что-то случилось со склонениями (в исходном тексте по ссылке такой формы нет).

bob623f October 15 2010, 15:02:53 UTC

Это же машина, которая пытается решить сложнейшую задачу извлечения фактов (объектов) из неструктурированного текста. Для нее что Иисус Господь, что Леопольд Кот - разницы нет. Был бы текст, объекты найдутся.

Про технологию можно почитать тут:
http://news.yandex.ru/people-search-tech.html

a_bugaev October 15 2010, 15:14:58 UTC

Спасибо за ссылку. Я примерно так и предполагал.

На самом деле, конечно, результат значительный, это уж я для развлечения придираюсь.
Но, мне кажется, они могли бы предусмотреть "склейку" персон на основе идентификации со статьями в словарях и энциклопедиях (там же у них и ссылки предлагаются).

elada October 18 2010, 11:55:04 UTC

Добрый день!

С удовольствием прочитала Ваш пост :)

Комментатор выше Вам правильно написал, что сервис полностью автоматический. Руками мы только удаляем и только по жалобам.
Если Вам интересно, я делала доклад на семинаре про устройство наших роботов: http://mathlingvo.ru/nlpseminar/archive/s_32 (там есть слайды и видео).

С уважением,
Татьяна Ландо
Яндекс.Пресс-портреты

a_bugaev October 18 2010, 14:46:43 UTC

Спасибо.

Конечно, мои претензии были не вполне серьезными.

Видео пока не смотрел, и, возможно, там есть ответ на мой вопрос. А спросить хочу вот что: используются ли данные энциклопедий, словарей и т.п. источников для идентификации и склейки получившихся персоналий? Ведь достаточно легко обнаружить, что Людвиг Бетховен и Людвиг ван Бетховен - это один человек. Сложнее с транскрипциями (Вильям и Уильям, Фредерик и Фридерик), но и тут, похоже, можно придумать достаточно надежный способ отождествления.

elada October 18 2010, 14:52:20 UTC

Пока нет. Технология сейчас так устроена, что сначала происходит склейка, а потом простановка ссылок.
Мы пробуем разные методы отождествления, в том числе "фонетические". Но когда доходит до большого объема данных, даже самые очевидные вещи начинают выдавать очень непредсказуемые ошибки и вести себя странно. Но что-нибудь мы в этом месте внедрим, обязательно.

a_bugaev October 18 2010, 14:56:08 UTC

Да, понятно, что случаи бывают совсем разные, и попадаются полные однофамильцы и тезки, так что сходу отождествлять их опасно.
Кстати, про это была занятная статья у В. А. Успенского http://magazines.russ.ru/novyi_mi/2005/1/uspen.html
Я цитировал кусочек из нее в http://a-bugaev.livejournal.com/671496.html

Thread 7

platonicus October 20 2010, 06:57:44 UTC

Про Анну Каренину - это вот что:
http://www.regions.ru/news/2264040/