Question

我正在使用R构建情感分析工具，我遇到了重复问题。数据的主要来源是Twitter，看起来许多人通过在每条推文的末尾添加一些随机文本来绕过Twitter自己的垃圾邮件过滤器。例如

Click xxxxx to buy the amazing xxxxx for FREE ugjh

我在最后得到了大量带有不同随机字符串的精确推文。他们来自同一个用户或来自不同的用户。

是否有像duplicated或unique这样的函数返回2个字符串的接近程度，如果它们高于某个％，则忽略它们？

我知道这样做最终会删除那些说完全相同的人的真实推文，比如

I love xxxx !

但我将在未来处理。

非常感谢任何正确方向的小贴士！

Answer 1

我上面提到了agrep。以下是您所解释的示例。通过改变max.distance，我们可以调整被踢的内容：

comp <- "Click xxxxx to buy the amazing xxxxx for FREE ugjh"
w <- "I love xxxx !"
x <- "Click xxxxx to purchase the awesome xxxxx for FREE bmf"

agrep(comp, c(x, w), max.distance =.4, value = TRUE)
agrep(comp, c(x, w), max.distance =.9, value = TRUE)

在R中找到“near duplicatelicates”字符串

1 个答案: