基于字符串值匹配的R中的部分重复数据删除

时间:2018-11-15 04:04:26

标签: r string duplicates matching fuzzy

我有一个名为“ reviews”的数据框,如下所示:

score_phrase    title   score   release_year    release_month   release_day

1惊人的LittleBigPlanet PS Vita 9 2012 9 12 2 Amazing LittleBigPlanet PS Vita-漫威超级英雄版9 2012 9 12 3伟大的拼接:生命之树8.5 2012 9 12 4大NHL 13 8.5 2012 9 11 5伟大的NHL 13 8.5 2012 9 11 6项全面战争大战:幕府将军7 2012 9 11 7可怕的双龙:霓虹灯3 2012 9 11 8惊人的激战2 9 2012 9 11 9可怕的双龙:霓虹灯3 2012 9 11 10场全面战争大战:幕府将军7 2012 9 11

目标:列值中的轻微不匹配/错误导致记录重复。这里的第1行和第2行是重复项,重复数据删除后应删除第2行。

我使用'SCRUBR'包的dedup()函数执行重复数据删除,但是在大型数据集上,当我为字符串匹配切换公差级别时,得到的重复数据不正确。

例如:

partial_dup_data <- reviews[1:100,] %>% dedup(tolerance = 0.7) 
#count w/o duplicates: 90
attr(partial_dup_data, "dups") 
# count of identified duplicates: 16

有人可以建议我做错了什么吗?是否有另一种方法可以实现目标?

0 个答案:

没有答案