从文本文件

时间:2017-12-27 15:20:04

标签: python beautifulsoup text-files

我安装了bs4。如何从文本文件中删除HTML标记?简而言之,我有一个脚本可以将ESRI元数据项从该元数据的HTML页面写入文本文件,对于其中的几个项目,HTML格式代码也是出于某种原因编写的。如何使用BeautifulSoup删除此代码?它看起来很草率。

此附件的说明项目包含HTML:Textfile

2 个答案:

答案 0 :(得分:2)

使用w3lib library,不需要bs4

from w3lib.html import remove_tags

text = "your text"
new_text = remove_tags(text)

答案 1 :(得分:0)

@eLRuLL谢谢,这非常适合删除标签。但是,我将使用此脚本的一些元数据描述非常冗长,并且将文本作为变量输入似乎是一个坏主意。出于这个原因,我尝试了这个:

import arcpy
import arcpy_metadata as md
from w3lib.html import remove_tags
ws = r'Database Connections\ims to Plainfield.sde\gisedit.DBO.Tax_Map_LY\gisedit.DBO.Tax_Map_Parcels_LY'
metadata = md.MetadataEditor(ws)
def meta2txt():
    abstract = metadata.abstract
    if abstract:
        w3lib.html.remove_tags(abstract)

脚本运行但HTML仍然存在。