词性数组的相似性

时间:2015-03-12 20:41:56

标签: algorithm machine-learning nlp nltk knn

K-最近邻和自然语言处理:如何测试词性数组之间的距离?例如

('动词','副词','名词')和('形容词','副词','代词')?

一个更好的措辞问题是,你如何判断两者在语境中的相似性,而不仅仅是字符串?

1 个答案:

答案 0 :(得分:2)

作为一般方法,您可以使用POS矢量之间的cosine作为其相似性的度量。替代方法是在两个向量之间使用hamming distance

矢量之间还有很多其他距离函数。但这实际上取决于您想要做什么以及您的数据是什么样的。你应该像位置一样回答问题吗?你会给这些载体多少相似之处? ('名词','动词')和('动词','名词')? ('副词')和('形容词')之间的距离是否小于('副词')和('名词')之间的距离?等等。