量化两个句子之间的相似性

时间:2017-09-21 17:21:56

标签: r string topic-modeling sentence-similarity

对于一个项目,我想量化两个文本字符串之间的相似性。这些字符串是研究提案的标题,在研究人员中我们想要计算它们之间的相似性。数据框目前存在三列:(a)研究人员ID,(b)项目名称,(c)项目名称。我有数百行(研究人员)。

让我们想象一下,我们在研究人员中有两个项目名称:

  

"通过观察DNA可以解决心血管疾病的问题。"

     

"基因和老年人的高心血管疾病风险。"

理想情况下,衡量一定程度的相似性不仅可以获得准确的单词("心血管疾病"和#34;疾病"),还可以连接" DNA"到"基因"。此外,所有不重要的单词("","可以",""," at"等)应该被删除

我对这些问题没有经验。对于大量研究人员,我如何能够量化这两个字符串变量之间的相似性?在理想情况下,我会在R中编程。

0 个答案:

没有答案