我希望从html文件中删除所有表格,即我想要一份html文件的副本,而不包含任何表格[不从文件中提取表格,或重新格式化等]。
我正在考虑使用以下格式的正则表达式:
html_without_tables = re.sub(r"(?s)(?i)\<table .*\<\/table\>, " ", table)
然而,有无数的帖子说不用正则表达式解析html,这让我有点不情愿(虽然不太确定会导致什么问题)。我猜想Beautifulsoup必须能够做到,但不知道如何。
答案 0 :(得分:1)
使用BeautifulSoup,这基本上就像查找所有table
标记并在每个标记上调用.extract()
一样简单:
for table in soup.find_all("table"):
table.extract()