Question

我正在使用Python搜索一个研究论文的XML，寻找一个特定的字符串的项目。我已经完成了这一步，但是我需要获得搜索结果中最前面的部分标题，即TITLE和LABEL标记及其内容。

mydf %>% filter(purrr::map_lgl(hashtags, ~ 'Potato' %in% .))

我有一个正则表达式来获取包含“ Chandra”的行，但是我一直在努力寻找“ 3.CHANDRA OBSERVATIONS”。这可能是非常明显的，但是我对正则表达式没有太多的培训。我对Chandra和其余行的正则表达式是“（。*）（c | C）handra \ b”

谢谢！ -珍妮

Answer 1

如果找到正确的<sec>标签，则只需要在<label>和<title>中获得文本即可。

title = '{} {}'.format(sec.findtext('label'), ''.join(sec.find('title').itertext())

Answer 2

不建议使用RegEx读取XML值，如注释中所述。如果仍要使用它们：

layout(~{::content})

这些标签之间的部分是值。