Question

我有一个名为“ reviews”的数据框，如下所示：

score_phrase    title   score   release_year    release_month   release_day

1惊人的LittleBigPlanet PS Vita 9 2012 9 12 2 Amazing LittleBigPlanet PS Vita-漫威超级英雄版9 2012 9 12 3伟大的拼接：生命之树8.5 2012 9 12 4大NHL 13 8.5 2012 9 11 5伟大的NHL 13 8.5 2012 9 11 6项全面战争大战：幕府将军7 2012 9 11 7可怕的双龙：霓虹灯3 2012 9 11 8惊人的激战2 9 2012 9 11 9可怕的双龙：霓虹灯3 2012 9 11 10场全面战争大战：幕府将军7 2012 9 11

目标：列值中的轻微不匹配/错误导致记录重复。这里的第1行和第2行是重复项，重复数据删除后应删除第2行。

我使用'SCRUBR'包的dedup()函数执行重复数据删除，但是在大型数据集上，当我为字符串匹配切换公差级别时，得到的重复数据不正确。

例如：

partial_dup_data <- reviews[1:100,] %>% dedup(tolerance = 0.7) 
#count w/o duplicates: 90
attr(partial_dup_data, "dups") 
# count of identified duplicates: 16

有人可以建议我做错了什么吗？是否有另一种方法可以实现目标？

基于字符串值匹配的R中的部分重复数据删除

0 个答案: