我正在使用Python搜索一个研究论文的XML,寻找一个特定的字符串的项目。我已经完成了这一步,但是我需要获得搜索结果中最前面的部分标题,即TITLE和LABEL标记及其内容。
mydf %>% filter(purrr::map_lgl(hashtags, ~ 'Potato' %in% .))
我有一个正则表达式来获取包含“ Chandra”的行,但是我一直在努力寻找“ 3.CHANDRA OBSERVATIONS”。这可能是非常明显的,但是我对正则表达式没有太多的培训。我对Chandra和其余行的正则表达式是“(。*)(c | C)handra \ b”
谢谢! -珍妮
答案 0 :(得分:0)
如果找到正确的<sec>
标签,则只需要在<label>
和<title>
中获得文本即可。
title = '{} {}'.format(sec.findtext('label'), ''.join(sec.find('title').itertext())
答案 1 :(得分:-1)