我有一些看起来像这样的字符串:NE=GPE_6079|Morph=gsn|TopoField=MF
,NE=ORG_6078a|Morph=gsf|TopoField=MF
,Corr=Hapag|NE=ORG_288-ORG_288a|Morph=dsf|TopoField=MF
。
我只对NE=ORG_
之后的第一个数字感兴趣。例如。我想要的第三个字符串288
。 NE=
可以在由|
分隔的字符串中的任何位置。
我的第一次尝试看起来像这样:
tag = tag.split("|")[determine_position(tag)].split("=")[1].split("_")[1]
我正在从标签序列中提取实际的标签。因此,对于Corr=Hapag|NE=ORG_288-ORG_288a|Morph=dsf|TopoField=MF
,我得到了288-ORG_288a
。效果很好,问题是,现在我必须处理该标签。如果我现在用-
划界并通过索引获取数字,那确实可行。但是我的文件有50万行,我很确定我是否可以这样处理,我必须研究很多不同的情况。
我可以获取该输出并可能再次对其进行处理,查看每个字符,将它们一个接一个地连接,然后再进行其他操作,但是在过程结束时出现一个数字并返回该数字。
但这一点都不顺利,必须有一种简单的方法。谢谢!