pdf2txt с координатами букв и слов

Mar 26, 2011 19:04

Как извлечь из текстовый слой с координатами букв и слов? pdf2html -xml выдает только кординаты строк, а документации к podofotxtextract я не смог ( Read more... )

Leave a comment

Comments 7

furia_krucha March 26 2011, 22:53:46 UTC
http://pdfcrop.sourceforge.net/ не подходит?

Reply


justpasha March 27 2011, 19:55:42 UTC
Все соорудить самому с помощью PDF::API2: http://search.cpan.org/~ssimms/PDF-API2-2.019/

Reply


justpasha March 28 2011, 09:32:51 UTC
А еще есть pdftotext из xpdf: http://www.foolabs.com/xpdf/

Reply


Looking forward to make a contribution anonymous April 14 2011, 08:45:24 UTC
Hey - I am really delighted to find this. cool job!

Reply


am April 23 2011, 03:57:14 UTC
> как от PDF файла отрезать слишком большие поля ?

В современных версиях Adobe Acrobat Professional, например 6.0, есть функции минимального редактирования, включая обрезку полей Crop Tool (Tools/Advanced Editing/Crop Tool). Удобно открыть тулбар View/Toolbars/Advanced Editing/ и там будет соответствующая кнопка 2ая или 3я, при нажатии на которую появится меню, где можно выставить размеры обрезаемых полей на глаз или в цифрах и применить обрезание к выбранным или всем страницам. Затем надо файл сохранить через Save as и открыть снова. Для печати, при вызове меню Print, придется выставить Fit to paper, чтобы новый обрез был под размер бумаги (но иногда надо отключать опцию Auto-rotate and center).

Reply


Leave a comment

Up