r - 使用R中的同义词识别接近重复的条目

我正在尝试识别数据库中名称的近似重复条目。我是数据库的新手，但我熟悉R.我可以在R中使用模糊匹配和soundex得到近似重复的集群。但是有几个名称是彼此的同义词。我想根据这个标准和上面的标准对名称进行聚类。

我想按照Techniques for finding near duplicate records中的建议，但使用同义词。据我所知，有一种称为WordNet的英语单词的同义词数据库，其中包含称为synsets的同义词集。但是字段名称中的条目采用不同的格式和语言。

例如，如果知道＆＃34; R版本3.0.3＆＃34;和＃34;温暖的小狗＆＃34;是同义词。我希望能够使用这样的自定义同义词syn1＆lt; -c（＆＃34; R版本3.0.3＆＃34;，＆＃34;温暖的小狗＆＃34;）进行重复附近的聚类。

在路上，我还想根据记录的其他字段（列）中的条目将聚类中的同音异义词分开。

有什么方法可以在R？

中实现这个