28
голосов
9ответов
20124 просмотров

Как я могу конвертировать PDF в HTML?

Какие существуют хорошие библиотеки на любом из распространенных языков для преобразования PDF в HTML?

0
голосов
4ответов
444 просмотров

оптическое распознавание символов PDF-файлов парламентских дебатов

Для работы по контракту мне нужно оцифровать множество старых PDF-файлов с протоколами пленарных дебатов, содержащих только отсканированную графику, из Федерального парламента Германии. Проблема в том, что большинство этих файлов имеют формат с двумя столбцами: Пример протокола http://ser...

20
голосов
9ответов
21942 просмотров

Как работают скребки экрана?

Я постоянно слышу, как люди пишут эти программы, и я знаю, что они делают, но как они это делают на самом деле? Я ищу общие концепции.

4
голосов
5ответов
9095 просмотров

Какой хороший метод извлечения текста из PDF с помощью C # или классического ASP (VBScript)?

Есть ли хорошая библиотека для извлечения текста из PDF? Я готов заплатить за это, если придется. Что-то, что работает с C # или классическим ASP (VBScript), было бы идеально, и мне также нужно иметь возможность отделить страницы от PDF. В этом вопросе были некоторые интересные вещи, осо...

387
голосов
13ответов
355217 просмотров

Модуль Python для преобразования PDF в текст

Есть ли какой-либо модуль Python для преобразования файлов PDF в текст? Я попробовал один фрагмент кода , найденный в Activestate, который использует pypdf, но сгенерированный текст не имел пробелов между и было бесполезно.