pdf2txt с координатами букв и слов

Mar 26, 2011 19:04

Как извлечь из текстовый слой с координатами букв и слов? pdf2html -xml выдает только кординаты строк, а документации к podofotxtextract я не смог ( Read more... )

Leave a comment

Comments 7

am April 23 2011, 04:09:50 UTC
> pdf2txt с координатами букв и слов
Большинство pdf можно открыть в GSview и сохранить просто текст: Edit/Text Extract... Но можно в меню File/Convert выбрать pswrite or epswrite и сохранив, парсить PS (EPS).. C.f.: http://www.iam.ubc.ca/old_pages/newbury/tex/figures.html#ghostview

Reply

bbixob April 25 2011, 11:21:50 UTC
спасибо! но я больше заинтересован в комманд-лайн утилитах, хотя буду пользоватся Акробатом теперь при случае.

И я нашел то, что мне нужно -- пакет mupdf , в котором pdfdraw -tt выдает текст с координатами букв.

Reply


Leave a comment

Up