Это же машина, которая пытается решить сложнейшую задачу извлечения фактов (объектов) из неструктурированного текста. Для нее что Иисус Господь, что Леопольд Кот - разницы нет. Был бы текст, объекты найдутся.
На самом деле, конечно, результат значительный, это уж я для развлечения придираюсь. Но, мне кажется, они могли бы предусмотреть "склейку" персон на основе идентификации со статьями в словарях и энциклопедиях (там же у них и ссылки предлагаются).
Комментатор выше Вам правильно написал, что сервис полностью автоматический. Руками мы только удаляем и только по жалобам. Если Вам интересно, я делала доклад на семинаре про устройство наших роботов: http://mathlingvo.ru/nlpseminar/archive/s_32 (там есть слайды и видео).
Видео пока не смотрел, и, возможно, там есть ответ на мой вопрос. А спросить хочу вот что: используются ли данные энциклопедий, словарей и т.п. источников для идентификации и склейки получившихся персоналий? Ведь достаточно легко обнаружить, что Людвиг Бетховен и Людвиг ван Бетховен - это один человек. Сложнее с транскрипциями (Вильям и Уильям, Фредерик и Фридерик), но и тут, похоже, можно придумать достаточно надежный способ отождествления.
Пока нет. Технология сейчас так устроена, что сначала происходит склейка, а потом простановка ссылок. Мы пробуем разные методы отождествления, в том числе "фонетические". Но когда доходит до большого объема данных, даже самые очевидные вещи начинают выдавать очень непредсказуемые ошибки и вести себя странно. Но что-нибудь мы в этом месте внедрим, обязательно.
Comments 12
http://news.yandex.ru/people/izrailev_bozha.html
http://news.yandex.ru/people/gospod1_iisus.html
http://news.yandex.ru/people/voskresshij_iisus.html
Reply
Reply
Про технологию можно почитать тут:
http://news.yandex.ru/people-search-tech.html
Reply
На самом деле, конечно, результат значительный, это уж я для развлечения придираюсь.
Но, мне кажется, они могли бы предусмотреть "склейку" персон на основе идентификации со статьями в словарях и энциклопедиях (там же у них и ссылки предлагаются).
Reply
С удовольствием прочитала Ваш пост :)
Комментатор выше Вам правильно написал, что сервис полностью автоматический. Руками мы только удаляем и только по жалобам.
Если Вам интересно, я делала доклад на семинаре про устройство наших роботов: http://mathlingvo.ru/nlpseminar/archive/s_32 (там есть слайды и видео).
С уважением,
Татьяна Ландо
Яндекс.Пресс-портреты
Reply
Конечно, мои претензии были не вполне серьезными.
Видео пока не смотрел, и, возможно, там есть ответ на мой вопрос. А спросить хочу вот что: используются ли данные энциклопедий, словарей и т.п. источников для идентификации и склейки получившихся персоналий? Ведь достаточно легко обнаружить, что Людвиг Бетховен и Людвиг ван Бетховен - это один человек. Сложнее с транскрипциями (Вильям и Уильям, Фредерик и Фридерик), но и тут, похоже, можно придумать достаточно надежный способ отождествления.
Reply
Мы пробуем разные методы отождествления, в том числе "фонетические". Но когда доходит до большого объема данных, даже самые очевидные вещи начинают выдавать очень непредсказуемые ошибки и вести себя странно. Но что-нибудь мы в этом месте внедрим, обязательно.
Reply
Кстати, про это была занятная статья у В. А. Успенского http://magazines.russ.ru/novyi_mi/2005/1/uspen.html
Я цитировал кусочек из нее в http://a-bugaev.livejournal.com/671496.html
Reply
http://www.regions.ru/news/2264040/
Reply
Leave a comment