lxml xpath返回一个空列表

时间:2017-07-25 05:33:34

标签: python xpath web-scraping lxml

<!DOCTYPE html><html xmlns="http://www.w3.org/1999/xhtml" class="pc chrome win psc_dir-ltr psc_form-xlarge" dir="ltr" lang="en">
<title>Some Title</title>
</html>

如果我跑:

from lxml import etree
html = etree.parse('text.txt')
result = html.xpath('//title')
print(result)

我会得到一个空列表。 我想它与命名空间有关,但我无法弄清楚如何解决它。

4 个答案:

答案 0 :(得分:1)

尝试使用html解析器创建树。 另请注意,如果text.txt是文件,则需要先读取。

with open('text.txt', 'r', encoding='utf8') as f:
    text_html = f.read()
像这样:

from lxml import etree, html

def build_lxml_tree(_html):
    tree = html.fromstring(_html)
    tree = etree.ElementTree(tree)
    return tree

tree = build_lxml_tree(text_html)
result = tree.xpath('//title')
print(result)

答案 1 :(得分:1)

您也可以使用HTML解析器:

from lxml import etree
parser = etree.HTMLParser() 
html = etree.parse('text.txt',parser)
result = html.xpath('//title')
print(result)

答案 2 :(得分:1)

你可以这样做:

from lxml import etree
parser = etree.HTMLParser() 
html = etree.parse('text.txt',parser)
result = html.xpath('//title/text()')
print(result)

输出结果为:

['Some Title']

答案 3 :(得分:0)

您可以像这样使用 namespace 方法的 xpath 参数:

from lxml import etree
html = etree.parse('text.txt')
result = html.xpath('//n:title', namespaces = {'n': 'http://www.w3.org/1999/xhtml'})

根据 lxml documentation “[...] XPath 没有默认命名空间的概念。因此,空前缀对于 XPath 是未定义的,不能用于命名空间前缀映射”,所以如果你是使用具有默认命名空间的元素,您可以在调用 xpath 时显式定义命名空间。

有关详细信息,请参阅此 similar question 的精彩答案。