所以我有一个通过df4.append创建的数据帧(df3,ignore_index = True);但是,我在我的列Gene_symbol中删除重复时遇到了一些问题,同时仍然保留了案例1,2和3中的值。我已经尝试过df4.drop_duplicates([“Gene_Symbol”])和其他各种方法,所有这些都倾向于删除其他行并使用我的数据。
我得到的是:
X Case1 Case2 Case3 Gene_Symbol
8026 8025 0.5326718 0.0000000 0.0000000 GAPDHS;TMEM147
32531 32530 0.0000000 0.5416982 0.0000000 GAPDHS;TMEM147
57051 57050 0.0000000 0.0000000 0.4821592 GAPDHS;TMEM147
我想要的是下面的数据框,其中保存了我的实际值
Case1 Case2 Case3 Gene_Symbol
0.5326718 0.5416982 0.4821592 GAPDHS;TMEM147
感谢您的时间!
答案 0 :(得分:0)
如果所有 Cases 列只包含每个基因的一个非零值,您可以尝试以下操作,这应该有效(假设您没有{{ 1}}看起来像索引的列:
\u003Call_urls>
或者:
X
答案 1 :(得分:0)
怎么样
df = df.groupby('Gene_Symbol')['Case1', 'Case2', 'Case3'].sum().reset_index()
Gene_Symbol Case1 Case2 Case3
0 GAPDHS;TMEM147 0.532672 0.541698 0.482159