4
голосов
2ответов
5633 просмотров

Есть ли способ извлекать текст из файлов PostScript (.ps, .eps) с помощью Java?

Я ищу решение, подобное PDFBox для PDF-файлов Apache Tika, но для файлов PS. спасибо.

4
голосов
3ответов
1858 просмотров

Извлечение чистого содержимого / текста из HTML-страниц за счет исключения навигации и содержимого Chrome

Я просматриваю новостные веб-сайты и хочу извлечь заголовок новости, аннотацию новости (первый абзац) и т. д. Я подключился к коду парсера webkit, чтобы легко перемещаться по веб-странице в виде дерева. Чтобы исключить навигацию и другой контент, не связанный с новостями, я беру текстовую вер...

5
голосов
4ответов
905 просмотров

Преобразование PDF в рабочий текст с помощью C #

Есть ли библиотека с классом для извлечения текста из файла pdf в c # .net?Я пробовал несколько, но документация ужасна, поэтому я не смог начать ее с нуля.Также, если он предоставляет класс для извлечения изображений, это будет плюсом.Какие-либо предложения?Спасибо заранее. Также мне нужно и...

4
голосов
2ответов
628 просмотров

Is OCR no longer an issue?

According to Wikipedia, "The accurate recognition of Latin-script, typewritten text is now considered largely a solved problem on applications where clear imaging is available such as scanning of printed documents." However, it gives no citation. My question is: is this true? Is the current stat...

18
голосов
8ответов
44951 просмотров

Text Extraction from HTML Java

I'm working on a program that downloads HTML pages and then selects some of the information and write it to another file. I want to extract the information which is intbetween the paragraph tags, but i can only get one line of the paragraph. My code is as follows; FileReader fileReader = new Fi...

1
голосов
5ответов
5887 просмотров

Regexp for extracting a mailto: address

I'd like a reg exp which can take a block of string, and find the strings matching the format: <a href="mailto:[email protected]">....</a> And for all strings which match this format, it will extract out the email address found after the mailto:. Any thoughts? This is needed for an internal...

2
голосов
1ответов
2118 просмотров

Search by topics and extract keywords from articles in Wikipedia

I'm doing a project in java in which I have to process a wikipedia dump file. I'm looking for a library to extract keywords in wikipedia articles... Basically I want to read every tag page in the wikipedia xml dump and compare it with a list of topics and categories and if it is correct , to choo...

0
голосов
4ответов
444 просмотров

оптическое распознавание символов PDF-файлов парламентских дебатов

Для работы по контракту мне нужно оцифровать множество старых PDF-файлов с протоколами пленарных дебатов, содержащих только отсканированную графику, из Федерального парламента Германии. Проблема в том, что большинство этих файлов имеют формат с двумя столбцами: Пример протокола http://ser...

37
голосов
10ответов
66176 просмотров

Как извлечь текст из офисных документов MS на C #

Я пытался извлечь текст (строку) из MS Word (.doc, .docx), Excel и Powerpoint с помощью C #. Где я могу найти бесплатную и простую библиотеку .Net для чтения документов MS Office? Я пытался использовать NPOI, но не получил образца о том, как использовать NPOI.

1
голосов
3ответов
10107 просмотров

Извлечь текст из файла PowerPoint (.ppt или .pptx)?

В настоящее время я использую комбинацию макросов OpenOffice и программы pdf2text для извлечения текста и хотел бы найти более простой и эффективный способ извлечения текста из файла PowerPoint. Я пробовал использовать библиотеку Apache POI, и мне не очень повезло, я столкнулся с многочисленн...

3
голосов
4ответов
1869 просмотров

Лучшая библиотека или приложение с открытым исходным кодом для сканирования веб-сайтов и сбора данных

Я хотел бы знать, какая библиотека с открытым исходным кодом является лучшей для сканирования и анализа веб-сайтов. Одним из примеров может служить поисковое агентство недвижимости, где я хотел бы получить информацию с нескольких сайтов и объединить их на моем собственном сайте. Для этого мне ну...

3
голосов
5ответов
1661 просмотров

как извлечь часть строки в php

Я использую preg_replace () для замены строк. $str = "<aa>Let's find the stuff qwe in between <id>12345</id> these two previous brackets</h>"; $do = preg_match("/qwe(.*)12345/", $str, $matches); который работает нормально и дает следующий результат $ match [0] ...

4
голосов
6ответов
3589 просмотров

Загрузка HTML и извлечение текста

Что было бы хорошим инструментом или набором инструментов для загрузки списка URL-адресов и извлечения только текстового содержимого? Паутина не требуется, но контроль над именами загружаемых файлов и потоковая передача будут бонусом. Платформа - Linux.

5
голосов
2ответов
7945 просмотров

Извлечение данных из сообщения электронной почты (или нескольких тысяч писем) [на основе Exchange]

Мой маркетинговый отдел, слава им, решил устроить розыгрыш, когда люди заходят через веб-страницу. Это замечательно, но информация не сохраняется в какой-либо базе данных, а отправляется в почтовый ящик Exchange по электронной почте. Отлично. Моя задача - извлечь запись (и маркетинговую инфор...

4
голосов
5ответов
1826 просмотров

Очистка самого большого блока текста из HTML-документа

Я работаю над алгоритмом, который попытается выделить, учитывая HTML-файл, то, что он считает родительским элементом, который, скорее всего, содержит большую часть текста содержимого страницы. Например, он выберет div "content" в следующем HTML: <html> <body> <div id="...

4
голосов
3ответов
1977 просмотров

Убрать HTML с веб-страницы и вычислить частоту слов?

Как в Groovy захватить веб-страницу и удалить HTML-теги и т. д., оставив только текст документа? Я бы хотел, чтобы результаты были помещены в коллекцию, чтобы я мог построить счетчик частоты слов. Наконец, позвольте мне еще раз упомянуть, что я хотел бы сделать это в Groovy.

18
голосов
11ответов
49204 просмотров

регулярное выражение для извлечения текста из HTML

Я хотел бы извлечь из общей HTML-страницы весь текст (отображаемый или нет). Я хочу удалить любые HTML-теги Любой javascript Любые стили CSS Есть ли регулярное выражение (одно или несколько), позволяющее добиться этого?

4
голосов
5ответов
9095 просмотров

Какой хороший метод извлечения текста из PDF с помощью C # или классического ASP (VBScript)?

Есть ли хорошая библиотека для извлечения текста из PDF? Я готов заплатить за это, если придется. Что-то, что работает с C # или классическим ASP (VBScript), было бы идеально, и мне также нужно иметь возможность отделить страницы от PDF. В этом вопросе были некоторые интересные вещи, осо...

387
голосов
13ответов
355217 просмотров

Модуль Python для преобразования PDF в текст

Есть ли какой-либо модуль Python для преобразования файлов PDF в текст? Я попробовал один фрагмент кода , найденный в Activestate, который использует pypdf, но сгенерированный текст не имел пробелов между и было бесполезно.