根据术语列表从树中删除元素

时间:2016-03-04 22:44:32

标签: python html lxml

我试图从网页中捕获一些文本(在运行脚本时传递其URL),但它隐藏在段落标记中,没有分配其他属性。我可以收集每个段落标记的内容,但我想从树中删除任何包含任何关键字列表的元素。

我收到以下错误:

  

tree.remove(elem)TypeError:Argument' element'类型不正确   (预期lxml.etree._Element,得到_ElementStringResult)

我明白当我尝试遍历树时我得到的是错误的类型,但我如何获得该元素呢?

示例代码:

    #!/usr/bin/python

    from lxml import html
    from lxml import etree

    url = sys.argv[1]
    page = requests.get(url)
    tree = html.fromstring(page.content)

    terms = ['keyword1','keyword2','keyword3','keyword4','keyword5','keyword6','keyword7']
    paragraphs = tree.xpath('//p/text()')
    for elem in paragraphs:
        if any(term in elem for term in terms):
            tree.remove(elem) 

1 个答案:

答案 0 :(得分:0)

在您的代码中,elem_ElementStringResult,其实例方法为getparent。其父级是Element个节点之一的<p>对象。

父方法有一个remove方法,可用于从树中删除它:

element.getparent().remove(element)

我不相信有更直接的方式,我不能很好地回答为什么没有removeself方法。

使用示例html:

content = '''
<root>
    <p> nothing1 </p>
    <p> keyword1 </p>
    <p> nothing2 </p>
    <p> nothing3 </p>
    <p> keyword4 </p>
</root>
'''

您可以在代码中看到以下内容:

from lxml import html
from lxml import etree

tree = html.fromstring(content)

terms = ['keyword1','keyword2','keyword3','keyword4','keyword5','keyword6','keyword7']
paragraphs = tree.xpath('//p/text()')
for elem in paragraphs:
    if any(term in elem for term in terms):
        actual_element = elem.getparent() 
        actual_element.getparent().remove(actual_element)

for child in tree.getchildren():
    print('<{tag}>{text}</{tag}>'.format(tag=child.tag, text=child.text))

# Output:
# <p> nothing1 </p>
# <p> nothing2 </p>
# <p> nothing3 </p>

从评论中看来,这段代码似乎并不适合您。如果是这样,您可能需要提供有关html结构的更多信息。