如何从字符串中正确提取信息

时间:2019-06-23 12:52:21

标签: string formatting

我有一些看起来像这样的字符串:NE=GPE_6079|Morph=gsn|TopoField=MFNE=ORG_6078a|Morph=gsf|TopoField=MFCorr=Hapag|NE=ORG_288-ORG_288a|Morph=dsf|TopoField=MF

我只对NE=ORG_之后的第一个数字感兴趣。例如。我想要的第三个字符串288NE=可以在由|分隔的字符串中的任何位置。

我的第一次尝试看起来像这样:

tag = tag.split("|")[determine_position(tag)].split("=")[1].split("_")[1]

我正在从标签序列中提取实际的标签。因此,对于Corr=Hapag|NE=ORG_288-ORG_288a|Morph=dsf|TopoField=MF,我得到了288-ORG_288a。效果很好,问题是,现在我必须处理该标签。如果我现在用-划界并通过索引获取数字,那确实可行。但是我的文件有50万行,我很确定我是否可以这样处理,我必须研究很多不同的情况。

我可以获取该输出并可能再次对其进行处理,查看每个字符,将它们一个接一个地连接,然后再进行其他操作,但是在过程结束时出现一个数字并返回该数字。

但这一点都不顺利,必须有一种简单的方法。谢谢!

0 个答案:

没有答案