Все вопросы: [pypdf]

6 вопросов

похожие теги:
5
голосов
1ответов
4917 просмотров

python и pyPdf - как извлечь текст со страниц, чтобы между строками были пробелы

в настоящее время, если я создаю объект страницы для страницы pdf с помощью pyPdf и extractText (), происходит то, что строки объединяются вместе.Например, если в строке 1 страницы написано «привет», а в строке 2 написано «мир», результирующий текст, возвращаемый функцией extractText (), будет «...

6
голосов
4ответов
2373 просмотров

Библиотека быстрого разделения PDF-файлов

pyPdf - отличная библиотека для разделения и объединения файлов PDF. Я использую его для разделения PDF-документов на одностраничные. pyPdf - это чистый питон, и при сохранении извлеченной страницы он проводит довольно много времени в методе _sweepIndirectReferences () объекта PdfFileWriter. Мне...

6
голосов
1ответов
2473 просмотров

чтение / запись метаданных xmp в файлы pdf через pypdf

Я могу читать метаданные xmp через pyPdf с помощью этого кода: a = pyPdf.PdfFileReader(open(self.fileName)) b = a.getXmpMetadata() c = b.pdf_keywords но: это лучший способ? А если я не использую свойство pdf_keywords? И есть ли способ установить эти метаданные...

17
голосов
5ответов
24923 просмотров

Обрезка страниц файла .pdf

Мне было интересно, есть ли у кого-нибудь опыт программной работы с файлами .pdf. У меня есть файл .pdf, и мне нужно обрезать каждую страницу до определенного размера. После быстрого поиска в Google я нашел библиотеку pyPdf для python, но мои эксперименты с ней не увенчались успехом. Когда я ...

11
голосов
3ответов
16631 просмотров

pyPdf для извлечения IndirectObject

Следуя этому примеру, я могу перечислить все элементы в файл pdf import pyPdf pdf = pyPdf.PdfFileReader(open("pdffile.pdf")) list(pdf.pages) # Process all the objects. print pdf.resolvedObjects Теперь мне нужно извлечь нестандартный объект из файла pdf. Мой объект - это объект с именем...

1
голосов
1ответов
4857 просмотров

извлечение потока из pdf в python

Как я могу извлечь часть этого потока (ту, которая называется BLABLABLA) из файла pdf, который его содержит ?? <</Contents 583 0 R/CropBox[0 0 595.22 842]/MediaBox[0 0 595.22 842]/Parent 29 0 /Resources<</ColorSpace<</CS0 563 0 R>>/ExtGState<</GS0 568 0 R>&gt...