Python-在DataFrame中搜索模式,后跟多个可能的字符串

时间:2019-03-11 23:21:53

标签: python pandas

我有一个数据帧,其中的一列中有一列用分号分隔的字符串:

  

gene_id ENSGACG00000019161; gene_version 1; transcript_id   ENSGACT00000025386; transcript_version 1;外显子编号9; gene_name   slc7a8a; gene_source合奏;基因生物型蛋白质编码   transcript_name slc7a8a-203; transcript_source合奏;   transcript_biotype protein_coding; exon_id ENSGACE00000225405;   exon_version 1;

我想以某种方式逐行删除仅在 gene_name 之后并在分号之前的字符串。因此,在这种情况下 slc7a8a 。很抱歉,这是一个简单的问题还是一个重复的问题。我试图浏览多种资源,但是甚至不知道描述我想做的最简洁的方法很难找到有用的东西。

谢谢

1 个答案:

答案 0 :(得分:1)

您可以使用以正则表达式模式作为输入参数的熊猫str.extract

df['col_name'].str.extract('gene_name(.*?);')