Как извлечь из текстовый слой с координатами букв и слов? pdf2html -xml выдает только кординаты строк, а документации к podofotxtextract я не смог
( Read more... )
> pdf2txt с координатами букв и слов Большинство pdf можно открыть в GSview и сохранить просто текст: Edit/Text Extract... Но можно в меню File/Convert выбрать pswrite or epswrite и сохранив, парсить PS (EPS).. C.f.: http://www.iam.ubc.ca/old_pages/newbury/tex/figures.html#ghostview
Comments 7
Большинство pdf можно открыть в GSview и сохранить просто текст: Edit/Text Extract... Но можно в меню File/Convert выбрать pswrite or epswrite и сохранив, парсить PS (EPS).. C.f.: http://www.iam.ubc.ca/old_pages/newbury/tex/figures.html#ghostview
Reply
И я нашел то, что мне нужно -- пакет mupdf , в котором pdfdraw -tt выдает текст с координатами букв.
Reply
Leave a comment