Question

所以我有一个通过df4.append创建的数据帧（df3，ignore_index = True）;但是，我在我的列Gene_symbol中删除重复时遇到了一些问题，同时仍然保留了案例1,2和3中的值。我已经尝试过df4.drop_duplicates（[“Gene_Symbol”]）和其他各种方法，所有这些都倾向于删除其他行并使用我的数据。

我得到的是：

         X       Case1       Case2       Case3       Gene_Symbol 
8026    8025    0.5326718   0.0000000   0.0000000   GAPDHS;TMEM147
32531   32530   0.0000000   0.5416982   0.0000000   GAPDHS;TMEM147
57051   57050   0.0000000   0.0000000   0.4821592   GAPDHS;TMEM147

我想要的是下面的数据框，其中保存了我的实际值

     Case1       Case2       Case3       Gene_Symbol 
    0.5326718   0.5416982   0.4821592   GAPDHS;TMEM147

感谢您的时间！

Answer 1

如果所有 Cases 列只包含每个基因的一个非零值，您可以尝试以下操作，这应该有效（假设您没有{{ 1}}看起来像索引的列：

\u003Call_urls>

或者：

Answer 2

怎么样

df = df.groupby('Gene_Symbol')['Case1', 'Case2', 'Case3'].sum().reset_index()

    Gene_Symbol     Case1       Case2       Case3
0   GAPDHS;TMEM147  0.532672    0.541698    0.482159

在Dataframe Pandas

2 个答案: