熊猫合并两个没有重复行的数据帧

时间:2021-02-19 16:41:07

标签: python pandas merge

我有两个数据框:

df = pd.merge(test1,test2, on = ['Gene'],how = 'outer')

我想将它们合并为一个数据框。我试过了:

    Gene    TPM_x   TPM_y
0   WASH7P  10.034  1.12345
1   WASH7P  10.034  2.30000
2   WASH7P  0.234   1.12345
3   WASH7P  0.234   2.30000
4   VCZ     2.345   NaN
5   btt     NaN     0.00000

导致:

    Gene    TPM_x   TPM_y
    WASH7P  10.034  1.12345
    WASH7P  0.234   2.30000
    VCZ     2.345   NaN
    btt     NaN     0.00000

但是,有重复的行。我试过 drop_duplicates() 但这不起作用。实际数据框要大得多,超过 30,000 行。

所需的输出:

.middle-td{
  width:50%;   
}
td,th{
    width:25%;
}
.wrapper
{
    border:1px solid #ddd;
    padding:20px;
}

任何帮助都会很棒。

1 个答案:

答案 0 :(得分:1)

如果您尝试根据“TPM_x”列删除重复项

使用这个

df = pd.merge(test1,test2, on = ['Gene'],how = 'outer').drop_duplicates(keep="first", subset = 'TPM_x')