Все вопросы: [lxml]

25 вопросов

похожие теги:
4
голосов
2ответов
2263 просмотров

can't install lxml (python 2.6.3, osx 10.6 snow leopard)

I try to: easy_install lxml and I get this error: File "build/bdist.macosx-10.3-fat/egg/setuptools/command/build_ext.py", line 85, in get_ext_filename KeyError: 'etree' any hints?

0
голосов
1ответов
284 просмотров

Difference between attributes and style tags in lxml

I am trying to learn lxml after having used BeautifulSoup. However, I am not a strong programmer in general. I have the following code in some source html: <p style="font-family:times;text-align:justify"><font size="2"><b><i> The reasons to eat pickles include: </i&...

8
голосов
4ответов
7988 просмотров

Python web scraping involving HTML tags with attributes

I'm trying to make a web scraper that will parse a web-page of publications and extract the authors. The skeletal structure of the web-page is the following: <html> <body> <div id="container"> <div id="contents"> <table> <tbody> <tr> <td class="author...

6
голосов
1ответов
2285 просмотров

lxml equivalent to BeautifulSoup "OR" syntax?

I'm converting some html parsing code from BeautifulSoup to lxml. I'm trying to figure out the lxml equivalent syntax for the following BeautifullSoup statement: soup.find('a', {'class': ['current zzt', 'zzt']}) Basically I want to find all of the "a" tags in the document that have a class at...

14
голосов
2ответов
12266 просмотров

How to add a namespace to an attribute in lxml

I'm trying to create an xml entry that looks like this using python and lxml: <resource href="Unit 4.html" adlcp:scormtype="sco"> I'm using python and lxml. I'm having trouble with the adlcp:scormtype attribute. I'm new to xml so please correct me if I'm wrong. adlcp is a namespace an...

0
голосов
1ответов
326 просмотров

Python packages depending on libxml2 and libxslt

Apart from lxml, is anyone aware of Python packages that depend on libxml2 and libxslt?

36
голосов
15ответов
26149 просмотров

How do you install lxml on OS X Leopard without using MacPorts or Fink?

I've tried this and run in to problems a bunch of times in the past. Does anyone have a recipe for installing lxml on OS X without MacPorts or Fink that definitely works? Preferably with complete 1-2-3 steps for downloading and building each of the dependencies.

12
голосов
2ответов
5707 просмотров

Changing the default indentation of etree.tostring in lxml

I have an XML document which I'm pretty-printing using lxml.etree.tostring print etree.tostring(doc, pretty_print=True) The default level of indentation is 2 spaces, and I'd like to change this to 4 spaces. There isn't any argument for this in the tostring function; is there a way to do this ...

6
голосов
2ответов
2221 просмотров

How to get lxml working under IronPython?

I need to port some code that relies heavily on lxml from a CPython application to IronPython. lxml is very Pythonic and I would like to keep using it under IronPython, but it depends on libxslt and libxml2, which are C extensions. Does anyone know of a workaround to allow lxml under IronPython...

1
голосов
1ответов
480 просмотров

lxml retrieving odd items with cssselector

In my test document I have a few classes labeled "item", currently I'm using the following to parse everything in the html file with this class with Selection = html.cssselect(".item") I'd like it to select all the odd items, like this in javascript using JQuery Selection = $(".item:odd"); ...

2
голосов
1ответов
1619 просмотров

Поиск родительского тега текстовой строки с помощью ElementTree / lxml

Я пытаюсь взять строку текста и «извлечь» остальной текст в абзаце / документе из HTML. Мой текущий подход заключается в попытке найти "родительский тег" строки в HTML, который был проанализирован с помощью lxml. (если вы знаете, как лучше решить эту проблему, я все слышу!) Например, найди...

14
голосов
3ответов
13444 просмотров

Создание документа с помощью lxml etree

Я хочу добавлять типы документов в свои XML-документы, которые я создаю с помощью etree LXML. Однако я не могу понять, как добавить тип документа. Жесткое кодирование и объединение строки не вариант. Я ожидал чего-то вроде того, как PI добавляются в etree: pi = etree.PI(...) doc.addprev...

2
голосов
2ответов
1310 просмотров

Как я могу заставить парсер lxml сохранять пробелы вне корневого элемента?

Я использую lxml для управления некоторыми существующими XML-документами, и я хочу внести как можно меньше шума при различиях. К сожалению, по умолчанию lxml.etree.XMLParser не сохраняет пробел до или после корневого элемента документа: >>> xml = '\n <etaoin>shrdlu</eta...

4
голосов
1ответов
1442 просмотров

Как я могу программно создать экземпляр элемента комментария с помощью lxml?

Я использую lxml для программного создания HTML, и мне нужно включить собственный комментарий в вывод. Хотя в lxml есть код для работы с комментариями (их можно создать при синтаксическом анализе существующего HTML-кода), я не могу найти способ создать его программным способом. Кто-нибудь мож...

15
голосов
2ответов
7389 просмотров

Как разобрать искаженный HTML в Python

Мне нужно просмотреть дерево DOM проанализированного HTML-документа. Я использую uTidyLib перед синтаксическим анализом строки с помощью lxml a = tidy.parseString (html_code, параметры) dom = etree.fromstring (str (a)) иногда я получаю сообщение об ошибке: кажется, что tidylib не может ...

6
голосов
4ответов
1987 просмотров

Проблема с использованием py2app с пакетом lxml

Я пытаюсь использовать py2app для создания автономного приложения из некоторых скриптов Python. Python использует пакет lxml, и я обнаружил, что должен явно указать это в файле setup.py, который использует py2app. Однако полученная прикладная программа по-прежнему не будет работать на машинах, н...

7
голосов
1ответов
9408 просмотров

Python: добавление пространств имен в lxml

Я пытаюсь указать пространство имен, используя lxml , подобное этому примеру (взято из здесь ): <TreeInventory xsi:noNamespaceSchemaLocation="Trees.xsd" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"> </TreeInventory> Я не уверен, как добавить экземпляр схемы для испо...

1
голосов
3ответов
872 просмотров

Справка Python Iterator + lxml

У меня есть этот сценарий- import lxml from lxml.cssselect import CSSSelector from lxml.etree import fromstring from lxml.html import parse website = parse('http://example.com').getroot() selector = website.cssselect('.name') for i in range(0,18): print selector[i].text_content() ...

1
голосов
5ответов
3639 просмотров

Очистка экрана Python lxml?

Мне нужно выполнить синтаксический анализ HTML с помощью python. После некоторого исследования lxml кажется моим лучшим выбором, но мне трудно найти примеры, которые помогут мне в том, что я пытаюсь сделать. вот почему я слышу. Мне нужно очистить страницу от всего видимого текста ... удалить все...

3
голосов
3ответов
1304 просмотров

Проблемы с декодированием в Django и lxml

У меня странная проблема с lxml при использовании развернутой версии моего приложения Django. Я использую lxml для анализа другой HTML-страницы, которую я получаю со своего сервера. Это отлично работает на моем сервере разработки на моем собственном компьютере, но по какой-то причине дает мне Un...

4
голосов
1ответов
335 просмотров

Как я могу напечатать номера сущностей в моем XML-документе вместо имен сущностей, используя lxml Python?

Я использую lxml и python для создания xml-документов (просто используя etree.tostring (root)), но на данный момент полученный xml отображает html-объекты, как с именованными объектами (& lt;), а не их числовые значения (& # 60;). Как именно изменить это так, чтобы результат использовал ...

16
голосов
2ответов
12463 просмотров

Нужна помощь по синтаксису Python lxml для синтаксического анализа html

Я новичок в Python, и мне нужна помощь с синтаксисом для поиска и перебора тегов html с использованием lxml. Вот примеры использования, с которыми я имею дело: HTML-файл довольно хорошо сформирован (но не идеален). На экране отображается несколько таблиц, одна из которых содержит набор резуль...

15
голосов
2ответов
18864 просмотров

Как сопоставить текстовый узел, а затем следовать за родительскими узлами с помощью XPath

Я пытаюсь разобрать HTML с помощью XPath. Следуя приведенному ниже упрощенному примеру XML, я хочу сопоставить строку «Текст 1», а затем получить содержимое соответствующего узла content. <doc> <block> <title>Text 1</title> <content>Stuff I wa...

21
голосов
3ответов
7790 просмотров

Почему не работает xpath при обработке документа XHTML с помощью lxml (на Python)?

Я проверяю следующий тестовый документ: <?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"> <html xmlns="http://www.w3.org/1999/xhtml"> <head> ...

7
голосов
3ответов
2056 просмотров

Используете каталог XML с lxml Python?

Есть ли способ, когда я анализирую XML-документ с помощью lxml, проверить этот документ на соответствие его DTD с помощью файла внешнего каталога? Мне нужно иметь возможность работать с фиксированными атрибутами, определенными в DTD документа.