如何删除' BODY'解析的xml文本中的标签?

时间:2017-05-07 02:52:35

标签: python xml parsing

我是新手程序员。使用python 3和BeautifulSoup4解析一些xml文件时遇到问题。也就是说,解析文本显示为

"BODY { MARGIN: 0px; FONT-FAMILY: Malgun Gothic; COLOR: #000000; FONT-SIZE: 10pt}P { LINE-HEIGHT: 1.2; MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px}LI { LINE-HEIGHT: 1.2; MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px} blar - blar - blar "

' blar - blar - blar'是我要解析的文本。

如何删除该文本中无用的单词?

1 个答案:

答案 0 :(得分:0)

我会使用正则表达式。如果你缩小了你想要的字符串的格式,你可以创建一个更好的正则表达式。

import re
text = "BODY { MARGIN: 0px; FONT-FAMILY: Malgun Gothic; COLOR: #000000; FONT-SIZE: 10pt}P { LINE-HEIGHT: 1.2; MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px}LI { LINE-HEIGHT: 1.2; MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px} blar - blar - blar"
print (re.findall("(?:(?:(.*?)}){3})(.*)",text)[0][1])

这是一个regex101供您查看:

https://regex101.com/r/m0Q3hL/1