应用错误收集

对于一个项目，我想量化两个文本字符串之间的相似性。这些字符串是研究提案的标题，在研究人员中我们想要计算它们之间的相似性。数据框目前存在三列：（a）研究人员ID，（b）项目名称，（c）项目名称。我有数百行（研究人员）。

让我们想象一下，我们在研究人员中有两个项目名称：

＆＃34;通过观察DNA可以解决心血管疾病的问题。＆＃34;

＆＃34;基因和老年人的高心血管疾病风险。＆＃34;

理想情况下，衡量一定程度的相似性不仅可以获得准确的单词（＆＃34;心血管疾病＆＃34;和＃34;疾病＆＃34;），还可以连接＆＃34; DNA＆＃34;到＆＃34;基因＆＃34;。此外，所有不重要的单词（＆＃34;＆＃34;，＆＃34;可以＆＃34;，＆＃34;＆＃34;，＆＃34; at＆＃34;等）应该被删除

我对这些问题没有经验。对于大量研究人员，我如何能够量化这两个字符串变量之间的相似性？在理想情况下，我会在R中编程。

量化两个句子之间的相似性

0 个答案: