从python中的html文件中删除表

时间:2015-10-21 17:13:01

标签: python html regex beautifulsoup

我希望从html文件中删除所有表格,即我想要一份html文件的副本,而不包含任何表格[不从文件中提取表格,或重新格式化等]。

我正在考虑使用以下格式的正则表达式:

 html_without_tables = re.sub(r"(?s)(?i)\<table .*\<\/table\>, " ", table)

然而,有无数的帖子说不用正则表达式解析html,这让我有点不情愿(虽然不太确定会导致什么问题)。我猜想Beautifulsoup必须能够做到,但不知道如何。

1 个答案:

答案 0 :(得分:1)

使用BeautifulSoup,这基本上就像查找所有table标记并在每个标记上调用.extract()一样简单:

for table in soup.find_all("table"):
    table.extract()