xml文本中的Python正则表达式,查找标签

时间:2018-08-22 18:40:59

标签: python regex xml beautifulsoup

我正在使用Python搜索一个研究论文的XML,寻找一个特定的字符串的项目。我已经完成了这一步,但是我需要获得搜索结果中最前面的部分标题,即TITLE和LABEL标记及其内容。

mydf %>% filter(purrr::map_lgl(hashtags, ~ 'Potato' %in% .))

我有一个正则表达式来获取包含“ Chandra”的行,但是我一直在努力寻找“ 3.CHANDRA OBSERVATIONS”。这可能是非常明显的,但是我对正则表达式没有太多的培训。我对Chandra和其余行的正则表达式是“(。*)(c | C)handra \ b”

谢谢! -珍妮

2 个答案:

答案 0 :(得分:0)

如果找到正确的<sec>标签,则只需要在<label><title>中获得文本即可。

title = '{} {}'.format(sec.findtext('label'), ''.join(sec.find('title').itertext())

答案 1 :(得分:-1)

不建议使用RegEx读取XML值,如注释中所述。 如果仍要使用它们:

layout(~{::content})

这些标签之间的部分是值。

See another question.