术语相关性算法

时间:2013-10-05 11:45:33

标签: information-retrieval

对于作业,我必须建议一种算法来计算给定文档的两个术语之间的相关程度。我不知道从哪里开始创建这样的算法;这都属于信息检索领域,我们目前正在研究二元和向量空间模型等。

如果有人能让我至少朝着正确的方向前进,那就太棒了!或任何有用的链接。

1 个答案:

答案 0 :(得分:0)

文本挖掘中的一个关键问题是提取术语之间的关系。手工制作的词汇资源(如Wordnet)在特殊文本语料库方面存在局限性。已经提出了从大型语料库自动构建叙词表问题的分布式方法,其利用复杂的自然语言处理技术,这使得它们具有语言特定性和计算密集性。据推测,在许多应用中,没有必要确定术语关系的确切性质,但它足以捕获和利用术语的频繁共现。这样的应用程序是标签推荐。

协作标记系统是社交数据存储库,用户通过为其分配描述性关键字(标记)来管理Web资源。协作标记系统的一个重要元素是标记推荐器,它向发布资源的用户提出一组标记。在本次演讲中,我们将探讨三种标记源的潜力:资源内容(包括元数据字段,如标题),资源配置文件(标记它的所有用户分配给资源的标记集)和用户配置文件(标记分配给她标记的所有资源的用户)。基于内容的标签集在标签到标签和标题 - 词 - 标签图中富含相关标签,其捕获单词的共同出现作为标签和/或标题词。生成的标签集进一步丰富了先前用于描述相同资源(资源简档)的标签。基于资源的标签集将根据用户配置文件标签进行检查 - 这是一个关于用户兴趣的丰富但不精确的信息来源。结果是一组与资源和用户相关的标签。

(如果你逐字逐句地复制到你的报告中,教授必定会发现你是通过简单的谷歌搜索得到的,就像我一样。)