我安装了bs4
。如何从文本文件中删除HTML标记?简而言之,我有一个脚本可以将ESRI元数据项从该元数据的HTML页面写入文本文件,对于其中的几个项目,HTML格式代码也是出于某种原因编写的。如何使用BeautifulSoup删除此代码?它看起来很草率。
此附件的说明项目包含HTML:Textfile
答案 0 :(得分:2)
使用w3lib
library,不需要bs4
:
from w3lib.html import remove_tags
text = "your text"
new_text = remove_tags(text)
答案 1 :(得分:0)
@eLRuLL谢谢,这非常适合删除标签。但是,我将使用此脚本的一些元数据描述非常冗长,并且将文本作为变量输入似乎是一个坏主意。出于这个原因,我尝试了这个:
import arcpy
import arcpy_metadata as md
from w3lib.html import remove_tags
ws = r'Database Connections\ims to Plainfield.sde\gisedit.DBO.Tax_Map_LY\gisedit.DBO.Tax_Map_Parcels_LY'
metadata = md.MetadataEditor(ws)
def meta2txt():
abstract = metadata.abstract
if abstract:
w3lib.html.remove_tags(abstract)
脚本运行但HTML仍然存在。