我是新手程序员。使用python 3和BeautifulSoup4解析一些xml文件时遇到问题。也就是说,解析文本显示为
"BODY { MARGIN: 0px; FONT-FAMILY: Malgun Gothic; COLOR: #000000; FONT-SIZE: 10pt}P { LINE-HEIGHT: 1.2; MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px}LI { LINE-HEIGHT: 1.2; MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px} blar - blar - blar "
' blar - blar - blar'是我要解析的文本。
如何删除该文本中无用的单词?
答案 0 :(得分:0)
我会使用正则表达式。如果你缩小了你想要的字符串的格式,你可以创建一个更好的正则表达式。
import re
text = "BODY { MARGIN: 0px; FONT-FAMILY: Malgun Gothic; COLOR: #000000; FONT-SIZE: 10pt}P { LINE-HEIGHT: 1.2; MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px}LI { LINE-HEIGHT: 1.2; MARGIN-TOP: 0px; MARGIN-BOTTOM: 0px} blar - blar - blar"
print (re.findall("(?:(?:(.*?)}){3})(.*)",text)[0][1])
这是一个regex101供您查看: