我有一个名为“ reviews”的数据框,如下所示:
score_phrase title score release_year release_month release_day
1惊人的LittleBigPlanet PS Vita 9 2012 9 12 2 Amazing LittleBigPlanet PS Vita-漫威超级英雄版9 2012 9 12 3伟大的拼接:生命之树8.5 2012 9 12 4大NHL 13 8.5 2012 9 11 5伟大的NHL 13 8.5 2012 9 11 6项全面战争大战:幕府将军7 2012 9 11 7可怕的双龙:霓虹灯3 2012 9 11 8惊人的激战2 9 2012 9 11 9可怕的双龙:霓虹灯3 2012 9 11 10场全面战争大战:幕府将军7 2012 9 11
目标:列值中的轻微不匹配/错误导致记录重复。这里的第1行和第2行是重复项,重复数据删除后应删除第2行。
我使用'SCRUBR'包的dedup()
函数执行重复数据删除,但是在大型数据集上,当我为字符串匹配切换公差级别时,得到的重复数据不正确。
例如:
partial_dup_data <- reviews[1:100,] %>% dedup(tolerance = 0.7)
#count w/o duplicates: 90
attr(partial_dup_data, "dups")
# count of identified duplicates: 16
有人可以建议我做错了什么吗?是否有另一种方法可以实现目标?