Leave a comment

Comments 12

a_bugaev October 15 2010, 14:10:08 UTC
Наиболее загадочный тут Божа Израилев. Видимо, у Яндекса там что-то случилось со склонениями (в исходном тексте по ссылке такой формы нет).

Reply


bob623f October 15 2010, 15:02:53 UTC
Это же машина, которая пытается решить сложнейшую задачу извлечения фактов (объектов) из неструктурированного текста. Для нее что Иисус Господь, что Леопольд Кот - разницы нет. Был бы текст, объекты найдутся.

Про технологию можно почитать тут:
http://news.yandex.ru/people-search-tech.html

Reply

a_bugaev October 15 2010, 15:14:58 UTC
Спасибо за ссылку. Я примерно так и предполагал.

На самом деле, конечно, результат значительный, это уж я для развлечения придираюсь.
Но, мне кажется, они могли бы предусмотреть "склейку" персон на основе идентификации со статьями в словарях и энциклопедиях (там же у них и ссылки предлагаются).

Reply


elada October 18 2010, 11:55:04 UTC
Добрый день!

С удовольствием прочитала Ваш пост :)

Комментатор выше Вам правильно написал, что сервис полностью автоматический. Руками мы только удаляем и только по жалобам.
Если Вам интересно, я делала доклад на семинаре про устройство наших роботов: http://mathlingvo.ru/nlpseminar/archive/s_32 (там есть слайды и видео).

С уважением,
Татьяна Ландо
Яндекс.Пресс-портреты

Reply

a_bugaev October 18 2010, 14:46:43 UTC
Спасибо.

Конечно, мои претензии были не вполне серьезными.

Видео пока не смотрел, и, возможно, там есть ответ на мой вопрос. А спросить хочу вот что: используются ли данные энциклопедий, словарей и т.п. источников для идентификации и склейки получившихся персоналий? Ведь достаточно легко обнаружить, что Людвиг Бетховен и Людвиг ван Бетховен - это один человек. Сложнее с транскрипциями (Вильям и Уильям, Фредерик и Фридерик), но и тут, похоже, можно придумать достаточно надежный способ отождествления.

Reply

elada October 18 2010, 14:52:20 UTC
Пока нет. Технология сейчас так устроена, что сначала происходит склейка, а потом простановка ссылок.
Мы пробуем разные методы отождествления, в том числе "фонетические". Но когда доходит до большого объема данных, даже самые очевидные вещи начинают выдавать очень непредсказуемые ошибки и вести себя странно. Но что-нибудь мы в этом месте внедрим, обязательно.

Reply

a_bugaev October 18 2010, 14:56:08 UTC
Да, понятно, что случаи бывают совсем разные, и попадаются полные однофамильцы и тезки, так что сходу отождествлять их опасно.
Кстати, про это была занятная статья у В. А. Успенского http://magazines.russ.ru/novyi_mi/2005/1/uspen.html
Я цитировал кусочек из нее в http://a-bugaev.livejournal.com/671496.html

Reply


platonicus October 20 2010, 06:57:44 UTC
Про Анну Каренину - это вот что:
http://www.regions.ru/news/2264040/

Reply


Leave a comment

Up