正则表达式模式中的一串非常相似的字符串中的唯一字符串

时间:2017-07-22 14:41:04

标签: regex python-3.x

enter image description here

这是我给出的文本文件。我正在逐行读取.txt文件,我想提取基因名称(在这种情况下为RAF)。但是,基因名称不一定是三个字母长,并且不一定包含字母。它还可以包含字母和数字,例如" SPATA72K"," HER2"。如果.txt文件的格式始终相同,如何提取Gene-Name?

1 个答案:

答案 0 :(得分:0)

尝试使用' awk'为此。您将能够过滤基因名称。希望它可以帮到你。

awk '$(column no.)~/^regex$/' file