链接相关主题IR

时间:2016-01-07 15:13:26

标签: text-mining information-retrieval information-extraction named-entity-extraction

如何通过文本文档链接其中包含关系条款(关键字实体)。当您搜索显示与该人相关的其他推荐的人时,示例为 google

enter image description here

在这张图片中,它找出了配偶总统候选人同等指定

我正在使用频率计数技术。同一文件中出现的两个词出现的可能性越大,他们就越有可能建立某种关系。但是,这也会在文本文档中链接不相关的术语,如页面标记,动词和页面引用。

我应该如何改进它,还有其他简单但可靠的技术吗?

1 个答案:

答案 0 :(得分:1)

你应该看一些技巧

1。)停止词过滤:在文本挖掘中常见的两个过滤词通常不是很重要,因为它们是两个频繁的。与theais等相同。有预定义的词典。

2。) TF / IDF :TF / IDF重新衡量他们分开文件的数量。

3。)命名实体识别:对于您手头的任务,仅关注名称可能就足够了。命名实体识别可以从文档中提取名称

4.。线性Dirichlet分配:LDA在文档中找到概念。概念是一组经常出现在一起的单词。