K-最近邻和自然语言处理:如何测试词性数组之间的距离?例如
('动词','副词','名词')和('形容词','副词','代词')?
一个更好的措辞问题是,你如何判断两者在语境中的相似性,而不仅仅是字符串?
答案 0 :(得分:2)
作为一般方法,您可以使用POS矢量之间的cosine作为其相似性的度量。替代方法是在两个向量之间使用hamming distance。
矢量之间还有很多其他距离函数。但这实际上取决于您想要做什么以及您的数据是什么样的。你应该像位置一样回答问题吗?你会给这些载体多少相似之处? ('名词','动词')和('动词','名词')? ('副词')和('形容词')之间的距离是否小于('副词')和('名词')之间的距离?等等。