Question

我只对NE=ORG_之后的第一个数字感兴趣。例如。我想要的第三个字符串288。 NE=可以在由|分隔的字符串中的任何位置。

我的第一次尝试看起来像这样：

tag = tag.split("|")[determine_position(tag)].split("=")[1].split("_")[1]

我正在从标签序列中提取实际的标签。因此，对于Corr=Hapag|NE=ORG_288-ORG_288a|Morph=dsf|TopoField=MF，我得到了288-ORG_288a。效果很好，问题是，现在我必须处理该标签。如果我现在用-划界并通过索引获取数字，那确实可行。但是我的文件有50万行，我很确定我是否可以这样处理，我必须研究很多不同的情况。

我可以获取该输出并可能再次对其进行处理，查看每个字符，将它们一个接一个地连接，然后再进行其他操作，但是在过程结束时出现一个数字并返回该数字。

但这一点都不顺利，必须有一种简单的方法。谢谢！

如何从字符串中正确提取信息

0 个答案: