在python

时间:2018-06-14 07:51:21

标签: python regex string tags

我一直在尝试使用python中的正则表达式从xml文件中删除某些字符串中的某些标签,但它不起作用,我有以下字符串:

my_xml = """
<Collection>
<REUTERS TOPICS="YES" LEWISSPLIT="TRAIN" CGISPLIT="TRAINING-SET" OLDID="5548" 
NEWID="5">
<DATE>26-FEB-1987 15:10:44.60</DATE>
<TOPICS><D>grain</D><D>wheat</D><D>corn</D><D>barley</D><D>oat</D> 
<D>sorghum</D></TOPICS>
<PLACES><D>usa</D></PLACES>
<PEOPLE></PEOPLE>
<ORGS></ORGS>
<EXCHANGES></EXCHANGES>
<COMPANIES></COMPANIES>
<UNKNOWN> 
&#5;&#5;&#5;C G
&#22;&#22;&#1;f0738&#31;reute
u f BC-average-prices   02-26 0095</UNKNOWN>
<TITLE>NATIONAL AVERAGE PRICES FOR FARMER-OWNED RESERVE</TITLE>
</Collection>

我尝试使用以下正则表达式删除标记之间的内容&#34; UNKNOWN&#34;:

y = re.sub('<UNKNOWN>.*?</UNKNOWN>','', my_xml)

但它不起作用。我意识到问题可能是这两个标签之间存在一些换行符,这可能是问题所在,但如果正则表达式因此无法工作,我该如何解决这个问题呢?我尝试将相同的正则表达式与不具有换行符的标签一起使用。

由于

0 个答案:

没有答案