Question

我希望从html文件中删除所有表格，即我想要一份html文件的副本，而不包含任何表格[不从文件中提取表格，或重新格式化等]。

我正在考虑使用以下格式的正则表达式：

 html_without_tables = re.sub(r"(?s)(?i)\<table .*\<\/table\>, " ", table)

然而，有无数的帖子说不用正则表达式解析html，这让我有点不情愿（虽然不太确定会导致什么问题）。我猜想Beautifulsoup必须能够做到，但不知道如何。

Answer 1

使用BeautifulSoup，这基本上就像查找所有table标记并在每个标记上调用.extract()一样简单：

for table in soup.find_all("table"):
    table.extract()