我目前正在使用此正则表达式来匹配参考文本中的doi字符串:
(10[.][0-9]{4,}[^\s"/<>]*/[^\s"<>]+)
这适用于大多数doi,例如:
Dahlin,J.,Nissink,W。,et al。 (2015年1月)。分析中的PAINS: 分析干扰和混杂酶促的化学机制 在巯基清除HTS期间观察到抑制。 J. Med。化学, 2015,58(5),pp 2091-2113。 DOI:10.1021 / jm5019093
返回:10.1021/jm5019093
此字符串上的正则表达式returns a partial doi:
Schmoe,J.,Doe,J。,&amp; McFly,M。(2011年1月)。应该是成年人 孩子多吃巧克力冰淇淋? Fancy Pants Journal,33岁, 211-7。 DOI:10.1234 / 0867-5309(2001)039&LT; 0215:NINPHD&GT; 2.1.CO; 3
返回10.1234/0867-5309(2001)039
我期待10.1234/0867-5309(2001)039<0215:NINPHD>2.1.CO;3
我需要做些什么才能考虑大于/小于符号?
答案 0 :(得分:1)
只需从字符类中删除它们:
(10[.][0-9]{4,}[^\s"/]*/[^\s"]+)