我有一个数据帧,其中的一列中有一列用分号分隔的字符串:
gene_id ENSGACG00000019161; gene_version 1; transcript_id ENSGACT00000025386; transcript_version 1;外显子编号9; gene_name slc7a8a; gene_source合奏;基因生物型蛋白质编码 transcript_name slc7a8a-203; transcript_source合奏; transcript_biotype protein_coding; exon_id ENSGACE00000225405; exon_version 1;
我想以某种方式逐行删除仅在 gene_name 之后并在分号之前的字符串。因此,在这种情况下 slc7a8a 。很抱歉,这是一个简单的问题还是一个重复的问题。我试图浏览多种资源,但是甚至不知道描述我想做的最简洁的方法很难找到有用的东西。
谢谢
答案 0 :(得分:1)
您可以使用以正则表达式模式作为输入参数的熊猫str.extract:
df['col_name'].str.extract('gene_name(.*?);')