获取庞大数据框的唯一条目

时间:2016-07-01 05:09:41

标签: r

我有一个包含5亿条目的数据框,有些是重复的。服务器可以将数据帧保存在内存中而不会出现问题,但是所有尝试应用unique()函数都会在服务器冻结时结束。

数据框具有以下格式:

"id_A","id_B_C"
"1068095976599746","137459917707_10151666538852708"
"964549956973805","137459917707_10151666538852708"
"10154089033126355","137459917707_10151666538852708"
"548826058653873","137459917707_10151666538852708"
"1048575401891319","137459917707_10151666538852708"
"10209663598697145","137459917707_10151666538852708" 
"10209718419385277","137459917707_10151666538852708"

条目(每一行)没有唯一的ID,因此id_A和id_B_C的统一会产生唯一的条目ID。我知道我可以通过基于id_A或id_B_C拆分数据框来应用唯一函数,但每个唯一ID的数量仍然在1亿左右。

是否有更优化的方法来删除重复的条目?

1 个答案:

答案 0 :(得分:1)

ff包允许您使用数据帧而无需将其加载到RAM。我不确定这会如何与重复或独特的功能相互作用,但它可能会减轻你的RAM使用量。