Question

我是新手程序员。使用python 3和BeautifulSoup4解析一些xml文件时遇到问题。也就是说，解析文本显示为

"BODY { MARGIN: 0px; FONT-FAMILY: Malgun Gothic; COLOR: #000000; FONT-SIZE: 10pt}P { LINE-HEIGHT: 1.2; MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px}LI { LINE-HEIGHT: 1.2; MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px} blar - blar - blar "

＆＃39; blar - blar - blar＆＃39;是我要解析的文本。

如何删除该文本中无用的单词？

Answer 1

我会使用正则表达式。如果你缩小了你想要的字符串的格式，你可以创建一个更好的正则表达式。

import re
text = "BODY { MARGIN: 0px; FONT-FAMILY: Malgun Gothic; COLOR: #000000; FONT-SIZE: 10pt}P { LINE-HEIGHT: 1.2; MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px}LI { LINE-HEIGHT: 1.2; MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px} blar - blar - blar"
print (re.findall("(?:(?:(.*?)}){3})(.*)",text)[0][1])

这是一个regex101供您查看：

https://regex101.com/r/m0Q3hL/1

如何删除＆＃39; BODY＆＃39;解析的xml文本中的标签？

1 个答案: