使用R中的同义词识别接近重复的条目

时间:2014-03-14 11:23:26

标签: r duplicate-removal synonym duplicates

我正在尝试识别数据库中名称的近似重复条目。我是数据库的新手,但我熟悉R.我可以在R中使用模糊匹配和soundex得到近似重复的集群。但是有几个名称是彼此的同义词。我想根据这个标准和上面的标准对名称进行聚类。

我想按照Techniques for finding near duplicate records中的建议,但使用同义词。据我所知,有一种称为WordNet的英语单词的同义词数据库,其中包含称为synsets的同义词集。但是字段名称中的条目采用不同的格式和语言。

例如,如果知道" R版本3.0.3"和#34;温暖的小狗"是同义词。我希望能够使用这样的自定义同义词syn1< -c(" R版本3.0.3","温暖的小狗")进行重复附近的聚类。

在路上,我还想根据记录的其他字段(列)中的条目将聚类中的同音异义词分开。

有什么方法可以在R?

中实现这个

1 个答案:

答案 0 :(得分:1)

裁剪,这不是答案,但可能有助于你或其他人回答。

我假设您知道,TM软件包允许使用自定义停用词,但我无法像在Warm Puppy示例中那样回想起同义词的自定义向量。那将非常有用。

其次,Tyler Rinker的qdap软件包具有很多功能,可能具有(或者他可能会创建)这样的同义词功能。

第三,RTextTools包合并了许多包和函数。它背后的团队可能会有所帮助。

对我的工作具有同义词 - 矢量功能非常有用。祝你好运,我会回来看看。