5
голосов
7ответов
1723 просмотров

Как лучше всего написать удобное в обслуживании приложение для очистки веб-страниц?

Некоторое время назад я написал Perl-скрипт, который входил в мой онлайн-банкинг и ежедневно отправлял мне по электронной почте мой баланс и мини-выписку.Я нашел его очень полезным для отслеживания моих финансов.Единственная проблема в том, что я написал его, используя только perl и curl, и это ...

4
голосов
3ответов
1858 просмотров

Извлечение чистого содержимого / текста из HTML-страниц за счет исключения навигации и содержимого Chrome

Я просматриваю новостные веб-сайты и хочу извлечь заголовок новости, аннотацию новости (первый абзац) и т. д. Я подключился к коду парсера webkit, чтобы легко перемещаться по веб-странице в виде дерева. Чтобы исключить навигацию и другой контент, не связанный с новостями, я беру текстовую вер...

5
голосов
3ответов
1929 просмотров

Стратегия Python для извлечения текста из искаженных html-страниц

Я пытаюсь извлечь текст из произвольных HTML-страниц. Некоторые страницы (которые я не могу контролировать) имеют искаженный HTML или скрипты, что усложняет задачу. Кроме того, я использую среду общего хостинга, поэтому я могу установить любую библиотеку python, но я не могу просто установить вс...

0
голосов
5ответов
3510 просмотров

how to extract all text from HTML file using PHP?

how to extract all text from HTML file I want to extract all text, in the alt attributes, tags, etc.. however I don't want to extract the text between style and script tags Thanks right now I have the following code <?PHP $string = trim(clean(strtolower(strip_tags($html_content)...

1
голосов
4ответов
1515 просмотров

Looking for an information retrival / text mining application or library

We extract various information from e-mails - flights, car rentals, hotels and more. the method is to extract the body of the mail, usually in HTML form but sometime it's text or we use the information in a PDF/Word/RTF attachment. We then apply regular expressions (sometimes in several steps) in...

1
голосов
5ответов
4558 просмотров

Possible to parse a HTML document and build a DOM tree(java)

Is it possible and what tools could be used to parse an html document as a string or from a file and then to construct a DOM tree so that a developer can walk the tree through some API. For example: DomRoot = parse("myhtml.html"); for (tags : DomRoot) { } Note: this is a HTML document not XH...

2
голосов
4ответов
5749 просмотров

How can I extract HTML content efficiently with Perl?

I am writing a crawler in Perl, which has to extract contents of web pages that reside on the same server. I am currently using the HTML::Extract module to do the job, but I found the module a bit slow, so I looked into its source code and found out it does not use any connection cache for LWP::U...

18
голосов
8ответов
44951 просмотров

Text Extraction from HTML Java

I'm working on a program that downloads HTML pages and then selects some of the information and write it to another file. I want to extract the information which is intbetween the paragraph tags, but i can only get one line of the paragraph. My code is as follows; FileReader fileReader = new Fi...

3
голосов
2ответов
2818 просмотров

HTML comment scraping in PHP

I've been looking around but have yet to find a solution. I'm trying to scrape an HTML document and get the text between two comments however have been unable to do this successfully so far. I'm using PHP and have tried the PHP Simple DOM parser recommended here many times but can't seem to get ...

134
голосов
8ответов
171946 просмотров

Extract part of a regex match

I want a regular expression to extract the title from a HTML page. Currently I have this: title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replace('<title>', '').replace('</title>', '') Is there a regular expression to ext...

0
голосов
3ответов
2193 просмотров

Parse a .Net Page with Postbacks

I need to read data from an online database that's displayed using an aspx page from the UN. I've done HTML parsing before, but it was always by manipulating query-string values. In this case, the site uses asp.net postbacks. So, you click on a value in box one, then box two shows, click on a val...

1
голосов
4ответов
3014 просмотров

Extracting text fragment from a HTML body (in .NET)

I have an HTML content which is entered by user via a richtext editor so it can be almost anything (less those not supposed to be outside the body tag, no worries about "head" or doctype etc). An example of this content: <h1>Header 1</h1> <p>Some text here</p><p>Som...

31
голосов
11ответов
29377 просмотров

"Smart" way of parsing and using website data?

How does one intelligently parse data returned by search results on a page? For example, lets say that I would like to create a web service that searches for online books by parsing the search results of many book providers' websites. I could get the raw HTML data of the page, and do some regexs...

22
голосов
2ответов
5738 просмотров

Create Great Parser - Extract Relevant Text From HTML/Blogs

I'm trying to create a generalized HTML parser that works well on Blog Posts. I want to point my parser at the specific entrie's URL and get back clean text of the post itself. My basic approach (from python) has been to use a combination of BeautifulSoup / Urllib2, which is okay, but it assumes ...

66
голосов
3ответов
81247 просмотров

Использование BeautifulSoup для поиска HTML-тега, содержащего определенный текст

Я пытаюсь получить элементы в документе HTML, содержащие следующий шаблон текста: # \ S {11} <h2> this is cool #12345678901 </h2> Итак, предыдущее будет соответствовать, используя: soup('h2',text=re.compile(r' #\S{11}')) И результаты будут примерно такими: [u'blahbla...

8
голосов
5ответов
3450 просмотров

метод python для извлечения содержимого (за исключением навигации) со страницы HTML

Конечно, HTML-страницу можно анализировать с помощью любого количества парсеров python, но я удивлен, что, похоже, нет никаких публичных сценариев синтаксического анализа для извлечения значимого контента (за исключением боковых панелей, навигации и т. д.) из учитывая HTML-документ. Я предпол...

2
голосов
5ответов
4804 просмотров

Как написать регулярное выражение для парсинга html?

Я пытаюсь написать регулярное выражение для моего парсера html. Я хочу сопоставить тег html с заданным атрибутом (например, <div> с class="tab news selected"), который содержит один или несколько тегов <a href>. Регулярное выражение должно соответствовать всему тегу (от <div&gt...

5
голосов
6ответов
1714 просмотров

Как разобрать плохо отформатированный HTML-файл?

Мне нужно проанализировать ряд веб-страниц, чтобы импортировать данные в приложение. Каждый тип веб-страницы предоставляет одинаковые данные. Проблема в том, что HTML-код каждой страницы отличается, поэтому расположение данных различается. Другая проблема заключается в том, что HTML-код плохо от...

3
голосов
2ответов
1343 просмотров

Разбор HTML-файла с помощью selectorgadget.com

Как мне использовать красивый суп и selectorgadget для очистки веб-сайта. Например, у меня есть веб-сайт - (продукт newegg) и я хотел бы, чтобы мой сценарий возвратил все спецификации этого продукта (щелкните СПЕЦИФИКАЦИИ), я имею в виду - Intel, Desktop, ......, 2.4GHz, 1066Mhz, ......, огр...

17
голосов
5ответов
76656 просмотров

Как вы разбираете HTML в vb.net

Я хотел бы знать, есть ли простой способ синтаксического анализа HTML в vb.net. Я знаю, что HTML не является строгим подмножеством XML, но было бы неплохо, если бы с ним можно было так обращаться. Есть ли что-нибудь, что позволило бы мне анализировать HTML XML-подобным способом в VB.net?

0
голосов
5ответов
2242 просмотров

Анализ данных фиксированного формата, встроенных в HTML, в Python

Я использую API-интерфейс Google appengine from google.appengine.api import urlfetch , чтобы получить веб-страницу. Результат result = urlfetch.fetch("http://www.example.com/index.html") - строка HTML-содержимого (в result.content). Проблема в том, что данные, которые я хочу проанал...

69
голосов
9ответов
73633 просмотров

парсинг HTML на iPhone

Может ли кто-нибудь порекомендовать библиотеку C или Objective-C для синтаксического анализа HTML? Он должен обрабатывать беспорядочный HTML-код, который не может быть полностью проверен. Существует ли такая библиотека, или мне лучше просто попробовать использовать регулярные выражения?

1
голосов
2ответов
227 просмотров

Сопоставьте записи RSS с телом HTML с помощью. неточный поиск

Как бы вы решили эту проблему? Вы очищаете HTML блогов. Часть HTML-кода блога - это сообщения блога, часть - форматирование, боковые панели и т. Д. Вы хотите иметь возможность определять, какой текст в HTML принадлежит какому сообщению (т.е. постоянная ссылка), если таковая имеется. Я знаю...

0
голосов
4ответов
2198 просмотров

Как извлечь значения атрибута id элемента из HTML

Я пытаюсь справиться с накладными расходами, связанными с автоматическим присвоением имен серверным элементам управления ASP.NET. У меня есть страница, содержащая 7000 строк HTML, отрисованных из сотен вложенных элементов управления ASP.NET, многие из которых имеют атрибуты id / name длиной в со...

0
голосов
6ответов
2127 просмотров

RegEx для извлечения свойств изображения HTML

Мне нужен шаблон RegEx для извлечения всех свойств тега изображения. Как мы все знаем, существует множество искаженных HTML-кодов, поэтому шаблон должен учитывать эти возможности. Я искал это решение https://stackoverflow.com/questions/138313/how-to-extract-img-src-title-and-alt-from-html...

248
голосов
32ответов
371861 просмотров

Извлечение текста из файла HTML с помощью Python

I'd like to extract the text from an HTML file using Python. I want essentially the same output I would get if I copied the text from a browser and pasted it into notepad. I'd like something more robust than using regular expressions that may fail on poorly formed HTML. I've seen many people...

0
голосов
3ответов
759 просмотров

Извлечение информации с веб-сайтов

Не каждый веб-сайт хорошо предоставляет свои данные с помощью XML-каналов, API и т. д. Как я могу получить информацию с веб-сайта? Например: ... <div> <div> <span id="important-data">information here</span> </div> </div> ... Я имею опыт прогр...

19
голосов
8ответов
19623 просмотров

C # - лучший подход к синтаксическому анализу веб-страницы?

Я сохранил html всей веб-страницы в виде строки, и теперь я хочу получить значения href из ссылок, желательно с возможностью сохранения их в других строках позже. Как лучше всего это сделать? Я попытался сохранить строку как XML-документ и проанализировать ее с помощью навигатора XPathDocum...

4
голосов
5ответов
1826 просмотров

Очистка самого большого блока текста из HTML-документа

Я работаю над алгоритмом, который попытается выделить, учитывая HTML-файл, то, что он считает родительским элементом, который, скорее всего, содержит большую часть текста содержимого страницы. Например, он выберет div "content" в следующем HTML: <html> <body> <div id="...

4
голосов
3ответов
1977 просмотров

Убрать HTML с веб-страницы и вычислить частоту слов?

Как в Groovy захватить веб-страницу и удалить HTML-теги и т. д., оставив только текст документа? Я бы хотел, чтобы результаты были помещены в коллекцию, чтобы я мог построить счетчик частоты слов. Наконец, позвольте мне еще раз упомянуть, что я хотел бы сделать это в Groovy.