使用stanford-nlp比较2段的算法

时间:2016-01-19 11:39:29

标签: java algorithm stanford-nlp

我最近开始使用stanford-nlp API,对于给定的输入(段落),它解构它并给出结果。
我的问题是如何使用它来比较2个不同的段落?
我可以参考互联网上有哪些工作算法吗?
关于如何处理这个的任何指示将非常感激。

谢谢!

1 个答案:

答案 0 :(得分:0)

这是一个非常广泛的问题。比较两段是什么意思? 您可以使用字符串编辑距离函数实际“比较”两个段落,而无需进行任何解析。请参阅:https://en.wikipedia.org/wiki/Edit_distance

更进一步,我使用了一种浅薄的方法,我只考虑了POS标签和单词,你可以在我的MS论文中阅读更多内容,从第19页开始:http://josep.valls.name/wordpress/wp-content/uploads/2011/09/MCVAI-JosepVallsVargas-0905.pdf

如果要使用完整的语法或依赖关系解析,则​​需要深入了解世界图形相似度。在此处阅读更多内容:https://en.wikipedia.org/wiki/Graph_theory

最后,pharaphrase识别社区的最新趋势之一是使用word2vec,这是Google发布的用于计算单词嵌入的工具。您可能想要阅读此SO问题的回答:How to calculate the sentence similarity using word2vec model of gensim with python