我是python的新手,我需要一些帮助来查找和使用lxml查找和迭代html标签的语法。以下是我正在处理的用例:
HTML文件格式很好(但并不完美)。屏幕上有多个表,一个包含一组搜索结果,另一个包含页眉和页脚。每个结果行都包含搜索结果详细信息的链接。
我需要找到包含搜索结果行的中间表(这是我能够弄清楚的):
self.mySearchTables = self.mySearchTree.findall(".//table")
self.myResultRows = self.mySearchTables[1].findall(".//tr")
我需要找到此表中包含的链接(这是我遇到的问题):
for searchRow in self.myResultRows:
searchLink = patentRow.findall(".//a")
似乎没有找到链接元素。
我需要链接的纯文本。我想如果我实际上首先得到了链接元素,那就像searchLink.text
。
最后,在lxml的实际API参考中,我无法找到有关find和findall调用的信息。我从谷歌上找到的一些代码中收集了这些内容。我是否遗漏了一些关于如何使用lxml有效地查找和迭代HTML标记的内容?
答案 0 :(得分:27)
好的,首先,关于解析HTML:如果你遵循zweiterlinde和S.Lott的建议至少使用beautifulsoup included with lxml的版本。这样你就可以获得一个漂亮的xpath或css选择器接口的好处。
但是,我个人更喜欢Ian Bicking的HTML parser included in lxml。
其次,.find()
和.findall()
来自lxml,试图与ElementTree兼容,这两种方法在XPath Support in ElementTree中描述。
这两个函数相当容易使用,但它们的XPath非常有限。我建议您尝试使用完整的lxml xpath()
method,或者如果您已经熟悉CSS,则使用cssselect()
method。
以下是一些示例,其中HTML字符串解析如下:
from lxml.html import fromstring
mySearchTree = fromstring(your_input_string)
使用css选择器类,您的程序大致如下所示:
# Find all 'a' elements inside 'tr' table rows with css selector
for a in mySearchTree.cssselect('tr a'):
print 'found "%s" link to href "%s"' % (a.text, a.get('href'))
使用xpath方法的等效方法是:
# Find all 'a' elements inside 'tr' table rows with xpath
for a in mySearchTree.xpath('.//tr/*/a'):
print 'found "%s" link to href "%s"' % (a.text, a.get('href'))
答案 1 :(得分:5)
您是否有理由不在此项目中使用Beautiful Soup?它将使处理不完美的文档变得更加容易。