0
голосов
1ответов
428 просмотров

Trimming whitespace from HTML content?

I have a CRUD maintenance screen with a custom rich text editor control (FCKEditor actually) and the program extracts the formatted text as HTML from the control for saving to the database. However, part of our standards is that leading and trailing whitespace needs to be stripped from the conten...

1
голосов
4ответов
186 просмотров

Why can I only get the HTML for the homepage of websites and not others?

I am writing a java program that connects to a website and it returns the HTML, for some reason I am having problems with it. Right now I am only able to access the website if I do //example String host = "www.google.com" but If I want to access a URL that is any more complicated then I g...

3
голосов
2ответов
2112 просмотров

Replace newlines with BR tags, but only inside PRE tags

In stock PHP5, what is a good preg_replace expression for making this transformation: replace newlines with <br />, but only within <pre> blocks (Feel free to make simplifying assumptions, and ignore corner cases. For example, we can assume that tags will be one line, and not patho...

1
голосов
3ответов
3868 просмотров

What regex would match a nested table with identifiable text in the table cell?

What regex would match a nested table with identifiable text in the table cell? I've tried but failed to come up with a regular expression to extract the specific table I want with out grabbing the beginning and end of both tables in the example. Here is something to get started: "<table>.*...

4
голосов
2ответов
2357 просмотров

Loading a webpage for parsing in Rails

Assume, I want to get a page from the web to my application and make some sort of parsing with it. How do I do that? Where should I start from? Should be some plugins/gems required? What is your usual practice in resolving such type of tasks?

0
голосов
2ответов
635 просмотров

Converting web page into UITableView

I have an UITableView and I want to populate it with data from this page: http://tvgids.mobi/gids/ned1.php My code: NSURL *urlll = [NSURL URLWithString:[NSString stringWithFormat:url]]; NSString *test = [NSString stringWithContentsOfURL:urlll]; UIAlertView *av = [[UIAlertView alloc] initWithTi...

6
голосов
8ответов
38772 просмотров

PHP regular expression to remove tags in HTML document

Say I have the following text ..(content)............. <A HREF="http://foo.com/content" >blah blah blah </A> ...(continue content)... I want to delete the link and I want to delete the tag (while keeping the text in between). How do I do this with a regular expression (since the U...

31
голосов
12ответов
20047 просмотров

jQuery-like interface for PHP?

I was curious as to whether or not there exists a jQuery-style interface/library for PHP for handling HTML/XML files -- specifically using jQuery style selectors. I'd like to do things like this (all hypothetical): foreach (j("div> p> a") as anchor) { // ... } print j("#some_id")-&g...

0
голосов
3ответов
3630 просмотров

Regex to Match HTML Style Properties

In need of a regex master here! <img src="\img.gif" style="float:left; border:0" /> <img src="\img.gif" style="border:0; float:right" /> Given the above HTML, I need a regex pattern that will match "float:right" or "float:left" but only on an img tag. Thanks in advance!

1
голосов
1ответов
564 просмотров

Regex to replace string1 with string2 except within html tags, OR as part of a url(outside of html)

I have a need to perform search and replace operations on large blocks of HTML. I do not wish to change anything that is part of an html tag (like urls) - I also do not wish to change urls OUTSIDE of html tags. I have a partial solution for matching a word that is not inside of html (src): word...

4
голосов
5ответов
5014 просмотров

Regular Expression for Link Tags in HTML

I need help with regular expressions. What I'm looking for is a regex that looks for link-tags like this: <link rel="stylesheet" href="style.css" type="text/css"> Irrespective of where href="" is positioned, I would like to look it up in the link-tag and put a variable named $url in fron...

1
голосов
2ответов
282 просмотров

Non-destructive parsing and modifying of HTML elements in C++

I have a need to do some simple modifications to HTML in C++, preferably without completely rewriting the HTML, such as what happens when I use libxml2 or MSHTML. In particular I need to be able to read, and then (potentially) modify, the "src" attribute of all "img" elements. I need it to be ro...

1
голосов
3ответов
614 просмотров

Script to build HTML page from from extracted DIVs from other HTML pages

I have a set of HTML reports that each contain two DIV elements with specific IDs that I need to strip out and compile into an overall summary report (again, an HTML file). My initial thoughts are that this is an ideal job for a Perl script, however we have no up-to-date in-house Perl skills (we...

0
голосов
3ответов
870 просмотров

How to remove a piece of HTML tags in a HTML page using PHP

I have a situation. I read in a html page using php using this piece of code $body = file_get_contents('index.htm'); Now in the index.htm file is a piece of html code like below that I sometimes need to remove/depends on criteria, so sometimes it needs to be removed and other times not. <td&...

1
голосов
1ответов
480 просмотров

lxml retrieving odd items with cssselector

In my test document I have a few classes labeled "item", currently I'm using the following to parse everything in the html file with this class with Selection = html.cssselect(".item") I'd like it to select all the odd items, like this in javascript using JQuery Selection = $(".item:odd"); ...

0
голосов
5ответов
12964 просмотров

php regex to extract data from HTML table

I'm trying to make a regex for taking some data out of a table. the code i've got now is: <table> <tr> <td>quote1</td> <td>have you trying it off and on again ?</td> </tr> <tr> <td>quote65</td> <td>Yo...

9
голосов
5ответов
6325 просмотров

Преимущества XSLT или Linq to XML

Какие преимущества дает использование XSLT или Linq to XML для синтаксического анализа HTML в C #? Это при условии, что HTML был очищен, поэтому он является действительным xhtml. Эти значения в конечном итоге попадут в объект C # для проверки и обработки. Пожалуйста, дайте мне знать, верны ли...

0
голосов
3ответов
879 просмотров

java разбирает html + css и конвертирует вывод на другой язык

Мне нужно понять файлы html + css и преобразовать их в нечто вроде rtf Layot в java. Теперь я понимаю, что мне нужен какой-то парсер html, но что мне оттуда делать? как я могу реализовать конвертер html-css? есть ли какой-нибудь патерн или метод для таких работ?

37
голосов
10ответов
25579 просмотров

Как лучше всего анализировать удаленный контент с помощью jQuery?

После вызова jQuery ajax для получения всего документа XHTML, как лучше всего выбрать определенные элементы из результирующей строки? Возможно, существует библиотека или плагин, решающий эту проблему? jQuery может выбирать элементы XHTML, существующие в строке, только если они обычно разрешены...

0
голосов
4ответов
577 просмотров

Какое регулярное выражение соответствует этим данным?

В документе XHTML есть следующее: <script type="text/javascript" id="JSBALLOONS"> function() { this.init = function() { this.wAPI = new widgetAPI('__BALLOONS__'); this.getRssFeed(); }; } </script> Я пытаюсь выделить все, что нахо...

2
голосов
1ответов
504 просмотров

Как разобрать html и css, чтобы понять макет страницы (java)

Мне нужно найти способ разобрать макет html и css, чтобы иметь возможность преобразовать его в язык свойств, который понимать простой html со встроенным css для каждого элемента html как я подхожу к такой задаче?

12
голосов
6ответов
17711 просмотров

Как удалить HTML-теги из строки ColdFusion?

Я ищу быстрый способ разобрать HTML-теги из строки ColdFusion. Мы загружаем RSS-канал, в котором потенциально может быть что угодно. Затем мы производим некоторые манипуляции с информацией, а затем выплевываем ее обратно в другое место. В настоящее время мы делаем это с помощью регулярного выраж...

13
голосов
4ответов
20913 просмотров

как использовать dom php parser

Я новичок в синтаксическом анализе DOM в PHP: У меня есть HTML-файл, который я пытаюсь разобрать. У него есть несколько таких DIV: <div id="interestingbox"> <div id="interestingdetails" class="txtnormal"> <div>Content1</div> <div>Content2<...

4
голосов
1ответов
6780 просмотров

Html Agility Pack - Разбор <li>

Я хочу собрать список фактов с простого веб-сайта. Каждый факт заключен в тег &lt;li&gt;. Как мне это сделать с помощью Html Agility Pack? Есть ли лучший подход? В тегах &lt;li&gt; заключены только факты и ничего больше.

3
голосов
1ответов
2161 просмотров

Анализ HTML-данных с помощью nutch 1.0 и настраиваемого плагина

Сейчас я пытаюсь написать собственный плагин для Nutch 1.0. Этот плагин должен анализировать html-данные и отфильтровывать соответствующую информацию из документов. У меня работает базовый плагин, он расширяет объект HtmlParserResult и выполняется каждый раз, когда я выполняю синтаксический анал...

68
голосов
29ответов
28833 просмотров

Вы можете привести примеры парсинга HTML?

Как вы анализируете HTML с помощью различных языков и библиотек синтаксического анализа? При ответе: Отдельные комментарии будут связаны с ответами на вопросы о том, как анализировать HTML с помощью регулярных выражений, чтобы показать, как правильно делать что-то. Для единообразия я ...

13
голосов
6ответов
19987 просмотров

Как я могу удалить атрибуты из тега html?

Как я могу использовать php для удаления всех / любых атрибутов из тега, например тега абзаца? с &lt;p class="one" otherrandomattribute="two"&gt; по &lt;p&gt;

27
голосов
6ответов
48575 просмотров

Разбор HTML в Python

Как лучше всего разобрать HTML, если я не могу использовать BeautifulSoup или lxml? У меня есть код, который использует SGMLlib, но он немного низкоуровневый и теперь устарел. Я бы предпочел, чтобы он мог исправить немного искаженного HTML, хотя я почти уверен, что большая часть ввода будет д...

2
голосов
1ответов
1402 просмотров

Библиотека для создания .NET XmlDocument из супа тегов HTML

Я ищу библиотеку .NET, которая может генерировать чистое дерево Xml, в идеале System.Xml.XmlDocument, из недопустимого кода HTML. I.E. он должен делать такие же догадки, исправления и замены, как браузеры, когда сталкиваются с этой ситуацией, и генерировать фиктивный документ XmlDocument. Библио...

6
голосов
7ответов
3288 просмотров

Синтаксис регулярного выражения переменного порядка

Есть ли способ указать, что две или более фразы регулярного выражения могут встречаться в любом порядке? Например, атрибуты XML можно записывать в любом порядке. Скажем, у меня есть следующий XML: &lt;a href="home.php" class="link" title="Home"&gt;Home&lt;/a&gt; &lt;a href="home.php" title="H...