在Dataframe Pandas

时间:2017-05-17 21:38:27

标签: python pandas dataframe

所以我有一个通过df4.append创建的数据帧(df3,ignore_index = True);但是,我在我的列Gene_symbol中删除重复时遇到了一些问题,同时仍然保留了案例1,2和3中的值。我已经尝试过df4.drop_duplicates([“Gene_Symbol”])和其他各种方法,所有这些都倾向于删除其他行并使用我的数据。

我得到的是:

         X       Case1       Case2       Case3       Gene_Symbol 
8026    8025    0.5326718   0.0000000   0.0000000   GAPDHS;TMEM147
32531   32530   0.0000000   0.5416982   0.0000000   GAPDHS;TMEM147
57051   57050   0.0000000   0.0000000   0.4821592   GAPDHS;TMEM147

我想要的是下面的数据框,其中保存了我的实际值

     Case1       Case2       Case3       Gene_Symbol 
    0.5326718   0.5416982   0.4821592   GAPDHS;TMEM147

感谢您的时间!

2 个答案:

答案 0 :(得分:0)

如果所有 Cases 列只包含每个基因的一个非零值,您可以尝试以下操作,这应该有效(假设您没有{{ 1}}看起来像索引的列:

\u003Call_urls>

或者:

X

答案 1 :(得分:0)

怎么样

df = df.groupby('Gene_Symbol')['Case1', 'Case2', 'Case3'].sum().reset_index()

    Gene_Symbol     Case1       Case2       Case3
0   GAPDHS;TMEM147  0.532672    0.541698    0.482159