(Untitled)

Sep 28, 2011 00:38

http://googlebooks.byu.edu/
Все было очень просто: закачать n-граммы GoogleBooks в базу данных и прикрутить на собственный корпусный движок - и корпус на 155 миллиардов слов готов. С поиском по лексемам, частям речи, синонимам, конструкциям, с работающими wildcards и сравнением статистик по ( Read more... )

Leave a comment

Comments 8

aleatorius September 27 2011, 21:28:33 UTC
экие коварные мормоны!

Reply


Do I assume correctly mura_vey September 27 2011, 23:29:53 UTC
That my attempts did not go into vain

Reply

Re: Do I assume correctly olesar September 27 2011, 23:44:09 UTC
Ты хочешь сказать, что мормоны уже ухватились за русский? Было бы неплохо...

Reply

Re: Do I assume correctly mura_vey September 28 2011, 01:36:35 UTC
А, нет. Я подумала, это ты почитала мой перечень достойных корпусов на CASовском сайте, среди которых есть сделанный Дэвисом googlebooks.
Интересно, кстати, насколько сложно приспособить его интерфейс для русского?

Reply


petsen September 28 2011, 03:30:11 UTC
Знаешь, реплики про гигантов выглядят не очень-то красиво, с учетом всего. Неясно, почему бы корпусной саранче (тм) и вправду не делать самой то, что ей надо. Ни филологи, ни астрономы не требуют спецпроектов для своих профессиональных нужд на чужие частные деньги, зато лингвисты недовольны всеми поисковыми машинами в мире, что те не обслуживают их нужд.

Reply

l_i_d_y_a September 28 2011, 04:57:41 UTC
Ну вот да.
И более того, создание такого корпуса стало возмождно только потому, что Гугл выложил в свободный доступ свою коллекцию биграмм.

Reply

mura_vey September 28 2011, 11:18:10 UTC
М-м-м, ну это как-то невежливо получилось про Марка Дэвиса, который до этого создал и поддерживает корпуса испанского, португальского и самый большой в мире корпус. Последний - американского английского. Ничего особенно "такого" в этом корпусе нет, чего бы отличало его от уже существующих и работающих на том же самом сервере.

Reply

l_i_d_y_a September 28 2011, 11:24:11 UTC
Наверное, я увлеклась немного. Точнее будет так:
Дэвис молодец, что работает над созданием корпусов.
Гугл молодец, что предоставляет данные.

Я просто согласилась с тем, что поисковые компании, во-первых, никому ничего не должны, во-вторых, достаточно много делают для развития научного знания.

Reply


Leave a comment

Up