对于一个项目,我想量化两个文本字符串之间的相似性。这些字符串是研究提案的标题,在研究人员中我们想要计算它们之间的相似性。数据框目前存在三列:(a)研究人员ID,(b)项目名称,(c)项目名称。我有数百行(研究人员)。
让我们想象一下,我们在研究人员中有两个项目名称:
"通过观察DNA可以解决心血管疾病的问题。"
"基因和老年人的高心血管疾病风险。"
理想情况下,衡量一定程度的相似性不仅可以获得准确的单词("心血管疾病"和#34;疾病"),还可以连接" DNA"到"基因"。此外,所有不重要的单词("","可以",""," at"等)应该被删除
我对这些问题没有经验。对于大量研究人员,我如何能够量化这两个字符串变量之间的相似性?在理想情况下,我会在R中编程。