应用错误收集

NLP文本距离

时间：2015-11-05 15:23:48

标签： nlp

计算语义之间的距离的最佳方法是什么。例如..假设我们正在搜索与2个名词相关的文字“欺诈” - “人A”和“人B”。文字如下所示。 ...... “PERSONA” .....欺诈.............. “PersonB” .................. .................................................. ......“欺诈” 在“名词 - ”中的结论PersonA更可能是形容词“欺诈”，因为“欺诈”比“PersonB”更接近“PersonA”。是否有任何好的算法/统计模型来衡量“文本挖掘”

1 个答案:

答案 0 :(得分：4)

首先，您尝试获取的衡量指标似乎并不是一种普通的语义含义＆＃39;距离，或semantic similarity。它更有可能是association measure。

因此，如果您要处理很多单词，请查看PMI或其他分布相似性（例如Natural Language Processing course的8周讲座）。

如果您只有几次出现，那么我建议执行语法分析并在分析树中测量普通距离。