我们假设,我正在访问大学网页。那里有很多教师档案。虽然这些页面在语法上并不相关,但它们在语义上是相关的。我该如何衡量这种关系呢?实际上我应该关注哪个参数来找到关系?
答案 0 :(得分:0)
This SO帖子回答了如何计算短语之间的语义相似性。 在您的情况下,您只需要将不同的页面表示为文档并遵循相同的方法。
在您的情况下,您可以利用更多信息,例如页面或出版物之间的链接(如果是研究人员)。我希望链接有点帮助...
答案 1 :(得分:0)
这是一个简单但非常好的算法:
当然,每位教师的页面和链接的页面都包含在语义上表征该教授的文本。 假设您创建了一组由教授页面上的文本和链接页面连接组成的单词(您可以继续连接文本,继续跟随链接到任意深度)。
现在,您可以根据使用向量空间模型提取的信息对教授进行聚类: 每个教授由一个向量表示,该向量的成分是提取的页面中包含的单词和与术语相关的值。 余弦相似性将完成其余的工作。