我正在尝试识别数据库中名称的近似重复条目。我是数据库的新手,但我熟悉R.我可以在R中使用模糊匹配和soundex得到近似重复的集群。但是有几个名称是彼此的同义词。我想根据这个标准和上面的标准对名称进行聚类。
我想按照Techniques for finding near duplicate records中的建议,但使用同义词。据我所知,有一种称为WordNet的英语单词的同义词数据库,其中包含称为synsets的同义词集。但是字段名称中的条目采用不同的格式和语言。
例如,如果知道" R版本3.0.3"和#34;温暖的小狗"是同义词。我希望能够使用这样的自定义同义词syn1< -c(" R版本3.0.3","温暖的小狗")进行重复附近的聚类。
在路上,我还想根据记录的其他字段(列)中的条目将聚类中的同音异义词分开。
有什么方法可以在R?
中实现这个答案 0 :(得分:1)
裁剪,这不是答案,但可能有助于你或其他人回答。
我假设您知道,TM软件包允许使用自定义停用词,但我无法像在Warm Puppy示例中那样回想起同义词的自定义向量。那将非常有用。
其次,Tyler Rinker的qdap软件包具有很多功能,可能具有(或者他可能会创建)这样的同义词功能。
第三,RTextTools包合并了许多包和函数。它背后的团队可能会有所帮助。
对我的工作具有同义词 - 矢量功能非常有用。祝你好运,我会回来看看。