Question

我一直在尝试使用python中的正则表达式从xml文件中删除某些字符串中的某些标签，但它不起作用，我有以下字符串：

my_xml = """
<Collection>
<REUTERS TOPICS="YES" LEWISSPLIT="TRAIN" CGISPLIT="TRAINING-SET" OLDID="5548" 
NEWID="5">
<DATE>26-FEB-1987 15:10:44.60</DATE>
<TOPICS><D>grain</D><D>wheat</D><D>corn</D><D>barley</D><D>oat</D> 
<D>sorghum</D></TOPICS>
<PLACES><D>usa</D></PLACES>
<PEOPLE></PEOPLE>
<ORGS></ORGS>
<EXCHANGES></EXCHANGES>
<COMPANIES></COMPANIES>
<UNKNOWN> 
&#5;&#5;&#5;C G
&#22;&#22;&#1;f0738&#31;reute
u f BC-average-prices   02-26 0095</UNKNOWN>
<TITLE>NATIONAL AVERAGE PRICES FOR FARMER-OWNED RESERVE</TITLE>
</Collection>

我尝试使用以下正则表达式删除标记之间的内容＆＃34; UNKNOWN＆＃34;：

y = re.sub('<UNKNOWN>.*?</UNKNOWN>','', my_xml)

但它不起作用。我意识到问题可能是这两个标签之间存在一些换行符，这可能是问题所在，但如果正则表达式因此无法工作，我该如何解决这个问题呢？我尝试将相同的正则表达式与不具有换行符的标签一起使用。

由于

在python

0 个答案: