计算单词之间的语义距离

时间:2008-12-30 00:21:47

标签: algorithm

有谁知道计算两个单词之间“语义距离”的好方法?

立刻想出一个计算词库中单词之间步数的算法。


好的,看起来已经回答了类似的问题:Is there an algorithm that tells the semantic similarity of two phrases

3 个答案:

答案 0 :(得分:3)

词库的想法有一些优点。一种想法是基于同义词库创建一个图表,其中节点是单词,边缘表示它们在同义词库中被列为同义词。然后,您可以使用最短路径算法为您提供节点之间的距离,作为其相似性的度量。

这里的一个难点是某些词在不同的语境中有不同的含义。您的算法可能需要考虑到这一点,并使用定向链接,其中输出链接的权重取决于所遵循的传入链接(或忽略基于传入链接的某些传出链接)。

答案 1 :(得分:3)

在文本挖掘中有一个重要的格言:“你应该知道一个词 它保留了“。这意味着可以根据经常出现的词语来学习单词的含义。

如果不详细说明,请给出两个简单的选项来估算术语之间的语义距离:

  1. 使用类似于WordNet的资源(一个庞大的英语词汇数据库)。 WordNet表面上类似于词库,因为它根据词的含义将词汇组合在一起。单词之间的语义距离可以估计为连接两个单词的顶点数。

  2. 使用大型语料库(例如维基百科),计算与您正在分析的单词相近的术语。创建两个向量并计算距离(例如余弦)。

  3. 您可以查看此材料以获取有关该主题的图片:

    1. http://www.saifmohammad.com/WebDocs/Mohammad_Saif_Thesis-slides.pdf

    2. http://www.umiacs.umd.edu/~saif/WebDocs/distributionalmeasures.pdf

    3. http://www.umiacs.umd.edu/~saif/WebDocs/Measuring-Semantic-Distance.pdf

答案 2 :(得分:0)

可能的黑客攻击:将这两个单词发送给Google搜索,并返回找到的页数。