使用BeautifulSoup删除del标记

时间:2015-09-23 17:28:22

标签: parsing python-3.x beautifulsoup

我对BeautifulSoup和Python3有一点点愚蠢的问题。这是我的HTML:

<span id="gaixm--1521602--15686128--ADHP.GEO_LONG" Visibility="None">
        <del class="cellChanged NO_REVISION_MARK AmdtDeletedAIRAC" title="Date d'entrée en vigueur: 17 SEP 2015. " id="geaip_4b6c6e3f-9841-400c-9359-6ae9b334448d">001°49'57"E</del>
        <ins class="cellChanged AmdtInsertedAIRAC" title="Date d'entrée en vigueur: 17 SEP 2015. " id="geaip_311221e8-2de7-4fce-b261-e0e9fb988238">001°49'52"E</ins>
</span>

我想删除所有del标签。但是当我这样做时:

soup = BeautifulSoup(html, 'lxml')
soup.del.decompose()
tbody_tag = soup.table.tbody
print(tbody_tag)

我有一个错误(这是正常的,del it是一个蟒蛇名字......):

  File "algo.py", line 52
    soup.del.decompose()
           ^
SyntaxError: invalid syntax.

那么......我怎么能这样做?
谢谢你的帮助!

1 个答案:

答案 0 :(得分:3)

您可以使用findAll功能,然后删除所有结果

for d in soup.findAll('del'):
  d.decompose()