--}}
Новая тема
Вы не можете создавать новые темы.
Т.к. вы неавторизованы на сайте. Пожалуйста назовите себя или зарегистрируйтесь.
Список тем

Вопрос для знатоков работы с pdf

Нужен совет (поиск решения проблемы. не для купли-продажи)
3
13
С друзьями на NN.RU
В социальных сетях
Поделиться
RostGl
15.07.2010
Есть здоровенный pdf файл (с текстом).
Возник интересный вопрос.
Нужно найти все страницы с ключевым словом, и создать из этих страниц другой pdf файл.
Ручками не катить, т.к их будет больше 300.
Кто нибудь знает как решить эту задачу?
MonitoR
15.07.2010
покатит вариант отойти от пдф в сторону txt или есть картинки/форматирование которые нужно сохранить?
RostGl
15.07.2010
Можно и в txt, т.к почти все страницы - это текст с простым форматированием.
Оставшиеся 5 страниц с картинкам уже можно и руками.

Если перевести текст в txt, то как-его дальше разбивать?
MonitoR
15.07.2010
если разбить текст по принципу 1 страница - 1 файл, то получить список нужных файлов поможет, скажем, grep. в винде аналог - findstr.
galkin
15.07.2010
А в ADOBE ACROBAT pro это разве нельзя сделать?
У меня нет под рукой акробата (про, не ридера), я бы "распустил" исходный файл на отдельные странички (вроде бы, такое я проделывал), положил бы их в отдельный каталог, затем (вот тут не уверен, как именно) натравил бы на этот каталог поиск по ключевому слову, полученные файлы скопировал бы в новый каталог, и затем (такое точно делал) сказал бы акробату "собери мне PDF из кучи разрозненных PDF-ок"


www.accesspdf.com/pdftk/ - вот такая штука есть, я думаю, поможет в 1 и 3 шаге точно )
RostGl
15.07.2010
Попробую проделать оба варианта, и grep и сплит.
Отпишусь об результатах.
Первый шаг с pdftk:

pdftk.exe имя_большого_файла burst

- расшивает файл на кучу отдельных файликов по 1 странице.

Поиск по ключевому слову я не осилил пока, вернее, адобе ридер отлично выполняет поиск, но не позволяет над результатами поиска чего-то типа "скопировать файл", даёт только открыть...
vlad2004
16.07.2010
Если простой текст, то распознайте в ABBYY FineReader, результат сохраните в .txt .
Cherdak
16.07.2010
C ПДФ текст( и картинки) и так копируется, без распознавания...
vlad2004
16.07.2010
можно и так, с распознаванием можно сохранить форматирование, но это на вкус и цвет :)
RostGl
16.07.2010
Проще всего оказалось сделать по рецепту от Петропавел

Сделал постраничный сплит, поиск в нем работает.
Теперь осталось только сделать мердже по ключевому слову.

Если не получится, то сделаю все в txt.
Всем спасибо за мысли.
Cherdak
16.07.2010
можно и так , но потом ошибки исправлять после распознавания(300 листов),но это на вкус и цвет :)
Новая тема
Вы не можете создавать новые темы.
Т.к. вы неавторизованы на сайте. Пожалуйста назовите себя или зарегистрируйтесь.
Список тем
Последние темы форумов
Форум Тема (Автор) Последний ответ Ответов
Принтер лазерный HEWLETT PACKARD HP-6L

Принтер лазерный HEWLETT PACKARD HP-6L Отправка в регионы после оплаты. 3штуки БУ. Внешний вид из магазина простояли на складе...
Цена: 4 500 руб.

Сетевой фильтр APC Surge Arrest

Сетевой фильтр APC Surge Arrest для радиолюбителя.и не только Отправка в регионы после оплаты. ЦЕНА 3000 руб. В рабочем состоянии....
Цена: 3 000 руб.

Материнские платы на запчасти и не только

Материнские платы на запчасти и не только Материнские платы и другие комплектующие Отправка в регионы после оплаты. Транспортной...
Цена: 3 000 руб.

Оперативная память Corsair XMS3 CMX8GX3M2A1600C9

Оперативная память Corsair XMS3 CMX8GX3M2A1600C9 Отправка в регионы после оплаты. Продаются сразу обе. Цена за обе 2000 руб....
Цена: 1 000 руб.