我一直在尝试使用python中的正则表达式从xml文件中删除某些字符串中的某些标签,但它不起作用,我有以下字符串:
my_xml = """
<Collection>
<REUTERS TOPICS="YES" LEWISSPLIT="TRAIN" CGISPLIT="TRAINING-SET" OLDID="5548"
NEWID="5">
<DATE>26-FEB-1987 15:10:44.60</DATE>
<TOPICS><D>grain</D><D>wheat</D><D>corn</D><D>barley</D><D>oat</D>
<D>sorghum</D></TOPICS>
<PLACES><D>usa</D></PLACES>
<PEOPLE></PEOPLE>
<ORGS></ORGS>
<EXCHANGES></EXCHANGES>
<COMPANIES></COMPANIES>
<UNKNOWN>
C G
f0738reute
u f BC-average-prices 02-26 0095</UNKNOWN>
<TITLE>NATIONAL AVERAGE PRICES FOR FARMER-OWNED RESERVE</TITLE>
</Collection>
我尝试使用以下正则表达式删除标记之间的内容&#34; UNKNOWN&#34;:
y = re.sub('<UNKNOWN>.*?</UNKNOWN>','', my_xml)
但它不起作用。我意识到问题可能是这两个标签之间存在一些换行符,这可能是问题所在,但如果正则表达式因此无法工作,我该如何解决这个问题呢?我尝试将相同的正则表达式与不具有换行符的标签一起使用。
由于