如何从python的数据集中删除某些数值?

时间:2019-03-18 11:29:30

标签: python pandas

我有一个要提取基因名称的数据集,但是在我要删除的行中,它们前面还有一个数字值(其ID):

data = pd.read_csv("genes_person1.csv")

我读入了具有此输入的数据:

Column 1
153 ADRB1
3486 IGFBP3
9531 BAG3
9612 NCOR2

我一直在尝试获取此输出:

ADRB1
IGFBP3
BAG3
NCOR2

我已经研究过类似问题的答案,例如使用slices,.replace和rstrip,但这要么没有做任何事情,要么删除了我需要保留的基因名称中的数字。如何删除每行开头的数字?

3 个答案:

答案 0 :(得分:3)

使用str.split

例如:

import pandas as pd

df = pd.DataFrame({"Column 1": ["153 ADRB1", "3486 IGFBP3", "9531 BAG3", "9612 NCOR2"]})
print(df["Column 1"].str.split().str[1])

输出:

0     ADRB1
1    IGFBP3
2      BAG3
3     NCOR2
Name: Column 1, dtype: object

答案 1 :(得分:2)

genename = "153 ADRB1"
print(genename.split(" ")[1])

答案 2 :(得分:0)

您可以通过根据空间拆分csv文件并将数据集加载到列中,并获取第二列,如下所示:

datatemp = pd.read_csv("genes_person1.csv", sep=' ') data = datatemp.iloc[:, 1]