如何计算/衡量excel中文本的相关性?

时间:2018-01-08 08:01:40

标签: excel correlation

我知道我们可以使用交叉相关来测量信号中的“相同性”,但我们如何计算文本中“相同性”的百分比?

例如我们有: 1.“令人敬畏的狗的传说” 2.“狗真棒的传说” 这就像是100%相同但是洗牌。

但配对时: 3.“狗极好的9号”,与句子1或2只有40%的同一性。

1 个答案:

答案 0 :(得分:0)

您正在寻找aproximate string matching。 Excel提供免费的add-on,由Microsoft开发,用于创建所谓的模糊匹配。它使用Jaccard index算法来确定两个给定值的相似性。

  • 确保两列都是表格(Ctrl + L);
  • 链接'左栏中的列'和“右列”#39;部分并按下中间的连接按钮;
  • 选择要输出的列(如果要在左侧或右侧选择多个列,请按住Ctrl键);
  • 确保已选中FuzzyLookup.Similarity;
  • 确定每个可比较字符串显示的最大匹配数;
  • 确定您的阈值。该数字表示两个字符串在将其标记为匹配之前的最小相似百分比;
  • 转到单元格A1的新工作表;
  • 点击' Go'按钮!
  • 选择所有相似性得分并为其提供更多小数以获得正确的结果。

See example.