我有一个要提取基因名称的数据集,但是在我要删除的行中,它们前面还有一个数字值(其ID):
data = pd.read_csv("genes_person1.csv")
我读入了具有此输入的数据:
Column 1
153 ADRB1
3486 IGFBP3
9531 BAG3
9612 NCOR2
我一直在尝试获取此输出:
ADRB1
IGFBP3
BAG3
NCOR2
我已经研究过类似问题的答案,例如使用slices,.replace和rstrip,但这要么没有做任何事情,要么删除了我需要保留的基因名称中的数字。如何删除每行开头的数字?
答案 0 :(得分:3)
使用str.split
例如:
import pandas as pd
df = pd.DataFrame({"Column 1": ["153 ADRB1", "3486 IGFBP3", "9531 BAG3", "9612 NCOR2"]})
print(df["Column 1"].str.split().str[1])
输出:
0 ADRB1
1 IGFBP3
2 BAG3
3 NCOR2
Name: Column 1, dtype: object
答案 1 :(得分:2)
genename = "153 ADRB1"
print(genename.split(" ")[1])
答案 2 :(得分:0)
您可以通过根据空间拆分csv文件并将数据集加载到列中,并获取第二列,如下所示:
datatemp = pd.read_csv("genes_person1.csv", sep=' ')
data = datatemp.iloc[:, 1]