我有两个数据框:
df = pd.merge(test1,test2, on = ['Gene'],how = 'outer')
我想将它们合并为一个数据框。我试过了:
Gene TPM_x TPM_y
0 WASH7P 10.034 1.12345
1 WASH7P 10.034 2.30000
2 WASH7P 0.234 1.12345
3 WASH7P 0.234 2.30000
4 VCZ 2.345 NaN
5 btt NaN 0.00000
导致:
Gene TPM_x TPM_y
WASH7P 10.034 1.12345
WASH7P 0.234 2.30000
VCZ 2.345 NaN
btt NaN 0.00000
但是,有重复的行。我试过 drop_duplicates() 但这不起作用。实际数据框要大得多,超过 30,000 行。
所需的输出:
.middle-td{
width:50%;
}
td,th{
width:25%;
}
.wrapper
{
border:1px solid #ddd;
padding:20px;
}
任何帮助都会很棒。
答案 0 :(得分:1)
如果您尝试根据“TPM_x”列删除重复项
使用这个
df = pd.merge(test1,test2, on = ['Gene'],how = 'outer').drop_duplicates(keep="first", subset = 'TPM_x')