http://googlebooks.byu.edu/Все было очень просто: закачать n-граммы GoogleBooks в базу данных и прикрутить на собственный корпусный движок - и корпус на 155 миллиардов слов готов. С поиском по лексемам, частям речи, синонимам, конструкциям, с работающими wildcards и сравнением статистик по
(
Read more... )
Comments 8
Reply
Reply
Reply
Интересно, кстати, насколько сложно приспособить его интерфейс для русского?
Reply
Reply
И более того, создание такого корпуса стало возмождно только потому, что Гугл выложил в свободный доступ свою коллекцию биграмм.
Reply
Reply
Дэвис молодец, что работает над созданием корпусов.
Гугл молодец, что предоставляет данные.
Я просто согласилась с тем, что поисковые компании, во-первых, никому ничего не должны, во-вторых, достаточно много делают для развития научного знания.
Reply
Leave a comment