python:删除"温哥华风格"从文本引用

时间:2016-11-19 13:04:55

标签: python text

我正在将文本从科学期刊复制并粘贴到文本文件中,我想删除这些参考文献。引用的风格是"温哥华"。因此,当复制并粘贴到文本文件中时,文本如下所示:

  

问题通过距离几何12或经典解决   多维缩放13,14。但是之前在3C的背景下   实验1,10,11等提出的证据,信心率为   20给了......

我想要的输出是:

  

问题是通过距离几何或经典解决的   多维缩放。但是之前在3C的背景下   实验和其他提出的证据,信心率为20   给... ...

我根据之前的帖子尝试了以下内容:

geometry12... scaling13,14... experiments1,10,11 -> geometry... scaling... experiments

然而,当我想要的只是删除参考数字时,这完全取消了所有数字(包括' 3C'和#39; 20'):

 $qualification_id = array($request->input('qualification_id'));

那么如何在不删除正常数字的情况下删除立即处理单词的参考号码?

1 个答案:

答案 0 :(得分:0)

我们要找一个既不是数字也不是空格的字符(保留"单词"只是数字),后跟数字,然后是一些数字的逗号后跟数字。我们将用所有这些替换所有第一个字符。

s = '''The problem was solved by distance geometry12 or classical multidimensional scaling13,14. However previously in the context of 3C experiments1,10,11 and other presented evidence, a confidence rate of 20 was given to the...'''

print(re.sub(r'([^ 0-9])(\d+(?:,\d+)*)', r'\1', s))

结果:

  

问题通过距离几何或经典的多维缩放来解决。然而,之前在3C实验和其他现有证据的背景下,对...的置信率为20。