Все вопросы: [pypdf]
6 вопросов
python и pyPdf - как извлечь текст со страниц, чтобы между строками были пробелы
в настоящее время, если я создаю объект страницы для страницы pdf с помощью pyPdf и extractText (), происходит то, что строки объединяются вместе.Например, если в строке 1 страницы написано «привет», а в строке 2 написано «мир», результирующий текст, возвращаемый функцией extractText (), будет «...
Библиотека быстрого разделения PDF-файлов
pyPdf - отличная библиотека для разделения и объединения файлов PDF. Я использую его для разделения PDF-документов на одностраничные. pyPdf - это чистый питон, и при сохранении извлеченной страницы он проводит довольно много времени в методе _sweepIndirectReferences () объекта PdfFileWriter. Мне...
чтение / запись метаданных xmp в файлы pdf через pypdf
Я могу читать метаданные xmp через pyPdf с помощью этого кода: a = pyPdf.PdfFileReader(open(self.fileName)) b = a.getXmpMetadata() c = b.pdf_keywords но: это лучший способ? А если я не использую свойство pdf_keywords? И есть ли способ установить эти метаданные...
Обрезка страниц файла .pdf
Мне было интересно, есть ли у кого-нибудь опыт программной работы с файлами .pdf. У меня есть файл .pdf, и мне нужно обрезать каждую страницу до определенного размера. После быстрого поиска в Google я нашел библиотеку pyPdf для python, но мои эксперименты с ней не увенчались успехом. Когда я ...
pyPdf для извлечения IndirectObject
Следуя этому примеру, я могу перечислить все элементы в файл pdf import pyPdf pdf = pyPdf.PdfFileReader(open("pdffile.pdf")) list(pdf.pages) # Process all the objects. print pdf.resolvedObjects Теперь мне нужно извлечь нестандартный объект из файла pdf. Мой объект - это объект с именем...
извлечение потока из pdf в python
Как я могу извлечь часть этого потока (ту, которая называется BLABLABLA) из файла pdf, который его содержит ?? <</Contents 583 0 R/CropBox[0 0 595.22 842]/MediaBox[0 0 595.22 842]/Parent 29 0 /Resources<</ColorSpace<</CS0 563 0 R>>/ExtGState<</GS0 568 0 R>>...