Question

我安装了bs4。如何从文本文件中删除HTML标记？简而言之，我有一个脚本可以将ESRI元数据项从该元数据的HTML页面写入文本文件，对于其中的几个项目，HTML格式代码也是出于某种原因编写的。如何使用BeautifulSoup删除此代码？它看起来很草率。

此附件的说明项目包含HTML：Textfile

Answer 1

使用w3lib library，不需要bs4：

from w3lib.html import remove_tags

text = "your text"
new_text = remove_tags(text)

Answer 2

@eLRuLL谢谢，这非常适合删除标签。但是，我将使用此脚本的一些元数据描述非常冗长，并且将文本作为变量输入似乎是一个坏主意。出于这个原因，我尝试了这个：

import arcpy
import arcpy_metadata as md
from w3lib.html import remove_tags
ws = r'Database Connections\ims to Plainfield.sde\gisedit.DBO.Tax_Map_LY\gisedit.DBO.Tax_Map_Parcels_LY'
metadata = md.MetadataEditor(ws)
def meta2txt():
    abstract = metadata.abstract
    if abstract:
        w3lib.html.remove_tags(abstract)

脚本运行但HTML仍然存在。

从文本文件

2 个答案: